自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(3)
  • 收藏
  • 关注

原创 【数据清洗】pandas查找一列中除空值外为只有一个值的列

使用pandas,代码如下 const_cols = [c for c in train_df.columns if train_df[c].nunique(dropna=False)==1 ]应该检查标准差,把标准差小的去掉。

2018-09-26 09:46:40 1273

原创 python 随机抽样划分数据集

比如说划分AB榜,随机各占50% A榜: dfA=df1.sample(frac=0.5,random_state=6) #按50%划分并设置随机数种子 B榜: rowlist=[] for indexs in dfA.index:     rowlist.append(indexs) dfB=df1.drop(rowlist,axis=0) dfA.to_csv('A榜.csv',e...

2018-09-25 17:17:39 7029

原创 清洗文本数据的一些注意点

1.看文本数据分割符,如果txt 文件是以\t分割的,且文本中也有\t,可以用python,re中的sub把分割符\t替换为\0001,后续pandas读入时指定分割符为\0001 2.注意引号“,如果文本中引号和\0001等分割符在一起,且为单独的引号(不是成对出现的),pandas读入时会报错。 3.注意文本中的回车符...

2018-09-08 17:33:50 1463

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除