目录
处理前戏:
多表合并:
1设置文件路径
data=pd.read_csv/ex
.shape()##查看数据规模和维度(行列各是多少)
.info()##查看数据结构
.describe()##只显示数值型的数据描述统计(观察数据为难点,需要经验)
.columns()##查看数据标签
header=None##取消默认第一行为列名
.value_counts() ##一般用来统计词频可以使用.keys()
、.values()
获取键、值
1.0缺失值处理
添加inplace=True###直接在原值上改变,在做好备份前慎用
只要改动原数据集就要进行索引重置
range(名字.shap[0])
1.1首先了解缺失值:
NaN:not a number
NA:not avaliable
None
1.2缺失值判断与处理
.isnull()##缺失值判断
.dropna##缺失值删除,对series,dataframe宝具
.dropna(how='all' ,axis=0)##删除全部为缺失值的行
.dropna(how='all' axis=1)##删除全部为缺失值的列
.dropna(thresh=数字)规定有几个预值,后删除
.notnull##缺失值删除,对series,dataframe宝具、
1.3补全缺失值
.fallna({列1:值1,列2,值2})##可以用常数来补全缺失值,填充缺失值是使用字典,可以指定不同的列用不同的值填充
.fallna(method='ffill',limit=数字)##默认以前一项作为填充,参数limit,限制填充选取最大范围
.fallna(XX.mean())##使用均值填充
2.0重复项处理
.duplicated()##返回布尔型数据,告知重复值的位置,可在后面加sum()得到有多少个重复项
drop_duplicated()##删除重复行
drop_duplicated(['列名'],keep='last')##可以指定列名,可以指定保留最后一个
3.0修改数据
str.lower()##将字母换为小写
lowercased.map(字典)##按照字典的指定进行匹配,注意要先改小写
3.1replacing values
一般负很大的值如-999等,将其替换为np.nan
.replace([选中被替换的值],[想要替换成的值])##替换值,[] ''等视情况添加
例子:data.replace({-999:np.nan,1000:0})##用字典的形式传递参数
3.2轴索引修改
.columns.values##提取列名
.strip()##去除前后空格,此函数一次只能处理一个数据
例:=[x.strip() for x in 名字]##列表推导式,一次去除所有前后空格
修改字段名称的⽅法有两种,⼀种是全盘修改:DataFrame.columns = ["新字段1","新字段2","新字段3","新字段4"]
另外⼀种修改⽅式是部分因⼦修改:DataFrame.rename(columns = {"旧字段1":"新字段1","就字段2":"新字段2"},inplace=True)。另外 rename 函数还可以修改数据表中某⾏或者某列数据,⾮常实⽤,你可以深⼊研究⼀下。
持续更新中ing