1、pandas读取文件时,read_table("txt",names=['','','']) names后面的是索引
2、pandas去除空白行
删除表中全部为NaN的行
df.dropna(axis=0,how='all')
3、pandas添加一列
只要df['x'] = y 添加一个索引就行
4、numpy查找最多值
count = np.bincount(everyfont) #将出现次数最多的字体认为是正文
common_value = np.argmax(count)
5、numpy合并
np.append
6、标准化数据
sklearn.processing.MinmaxScare
7、pandas的onehot表示
keyword = pd.get_dummies(df['f1'])
8、如何替换numpy数组中的值
keyword_array[x] = np.array(['100']*9)9、pandas统计某一列重复值先转换为series,然后series.value_counts()会列出每一个值出现的次数