数据预处理
数据质量检测—特殊字符处理—补全—查找替换----数据去重—多个数据源合并—无效数据剔除
1.索引
三种方式
a.切片:利用位置和标签进行切片,主要是使用**:**(切片是原始数据的视图,更改都会改变原始数据)
b.布尔型数组
c.数组
DataFrame 使用 obj.ix[,],ix专门索引字段(灵活运用例如:obj.three>5或者obj[‘three’]>5)
2.筛选
a.根据单元格内容进行筛选
字符长短:df=df[df[‘one’].str.len()==18]
字符包含:df=df[df[‘one’].str.contains()] #使用正则表达式进行模糊匹配
是否有该字符:df=df[df[‘one’].isin(list)]
去除空值:df=df[df[‘one’].isnull()],df=df[df[‘one’].notnull()],
去重
DataFrame.drop_duplicates(subset=None, keep=‘first’, inplace=False)
3.数据的变换
a.df[‘one’]=df[‘one’].str.replace()
删除空值
补全空值
4.重置数据
a.df.ix[1:3,[1:3]]=1
5.更改索引和列表头
df.columns=[]
df.index=[]
df.rename(index=[],columns