数据清洗
人生就是不断的奋斗呀
这个作者很懒,什么都没留下…
展开
-
清洗文本数据的一些注意点
1.看文本数据分割符,如果txt 文件是以\t分割的,且文本中也有\t,可以用python,re中的sub把分割符\t替换为\0001,后续pandas读入时指定分割符为\0001 2.注意引号“,如果文本中引号和\0001等分割符在一起,且为单独的引号(不是成对出现的),pandas读入时会报错。 3.注意文本中的回车符...原创 2018-09-08 17:33:50 · 1463 阅读 · 0 评论 -
python 随机抽样划分数据集
比如说划分AB榜,随机各占50% A榜: dfA=df1.sample(frac=0.5,random_state=6) #按50%划分并设置随机数种子 B榜: rowlist=[] for indexs in dfA.index: rowlist.append(indexs) dfB=df1.drop(rowlist,axis=0) dfA.to_csv('A榜.csv',e...原创 2018-09-25 17:17:39 · 7029 阅读 · 0 评论 -
【数据清洗】pandas查找一列中除空值外为只有一个值的列
使用pandas,代码如下 const_cols = [c for c in train_df.columns if train_df[c].nunique(dropna=False)==1 ]应该检查标准差,把标准差小的去掉。原创 2018-09-26 09:46:40 · 1273 阅读 · 0 评论 -
pandas处理datafarme节约内存
从kaggle上看到的好用的轮子: def reduce_mem_usage(df): start_mem = df.memory_usage().sum() / 1024**2 print('Memory usage of dataframe is {:.2f} MB'.format(start_mem)) for col in df.columns: ...原创 2019-06-21 15:38:36 · 409 阅读 · 0 评论