- 博客(3)
- 收藏
- 关注
原创 【数据清洗】pandas查找一列中除空值外为只有一个值的列
使用pandas,代码如下 const_cols = [c for c in train_df.columns if train_df[c].nunique(dropna=False)==1 ]应该检查标准差,把标准差小的去掉。
2018-09-26 09:46:40 1273
原创 python 随机抽样划分数据集
比如说划分AB榜,随机各占50% A榜: dfA=df1.sample(frac=0.5,random_state=6) #按50%划分并设置随机数种子 B榜: rowlist=[] for indexs in dfA.index: rowlist.append(indexs) dfB=df1.drop(rowlist,axis=0) dfA.to_csv('A榜.csv',e...
2018-09-25 17:17:39 7029
原创 清洗文本数据的一些注意点
1.看文本数据分割符,如果txt 文件是以\t分割的,且文本中也有\t,可以用python,re中的sub把分割符\t替换为\0001,后续pandas读入时指定分割符为\0001 2.注意引号“,如果文本中引号和\0001等分割符在一起,且为单独的引号(不是成对出现的),pandas读入时会报错。 3.注意文本中的回车符...
2018-09-08 17:33:50 1463
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人