python数据处理
joleoy
这个作者很懒,什么都没留下…
展开
-
利用feather快速处理大数据
Feather是一个快速、轻量级的存储框架,可以在应用在pandas的Dataframe数据结构中。读写数据import featherimport pandas as pddef read_csv_feature(file_in): # 读 f = open(file_in, encoding='utf-8') reader = pd.read_csv(f, sep=',',it...原创 2018-12-16 15:29:54 · 3921 阅读 · 1 评论 -
数据处理trick
核心思路:先用LabelEncoder对离散特征编码,因为onehotencoder只能处理数值然后使用OneHotEncoder编码,生成稀疏表示的特征再使用sparse.hstack连接连续特征和稀疏特征为什么不使用pd.get_dummy呢,因为这样是直接生成的稠密矩阵,内存开销太大、from sklearn.preprocessing import LabelEncoderfr...原创 2019-01-19 11:31:58 · 244 阅读 · 0 评论 -
图像数据增强
某大佬分享trick#数据集扩增import cv2import mathimport numpy as npimport xml.etree.ElementTree as ETimport osdef rotate_image(src, angle, scale=1): w = src.shape[1] h = src.shape[0] # 角度变弧度 ...原创 2019-01-21 14:13:35 · 180 阅读 · 0 评论 -
数据预处理DEMO
功能包括:异常值处理空置处理训练集和测试集划分import numpy as npimport pandas as pdfrom sklearn.decomposition import PCAfrom sklearn.preprocessing import StandardScalerimport gcfrom tqdm import tqdmimport timef...原创 2019-08-18 16:29:52 · 261 阅读 · 0 评论 -
在python中如何用word2vec来计算句子的相似度
在python中,如何使用word2vec来计算句子的相似度呢?第一种解决方法如果使用word2vec,需要计算每个句子/文档中所有单词的平均向量,并使用向量之间的余弦相似度来计算句子相似度,代码示例如下import numpy as npfrom scipy import spatialindex2word_set = set(model.index2word)def avg_f...转载 2019-08-19 17:24:13 · 8453 阅读 · 7 评论