Python 数据清洗1.0(个人笔记)

目录

处理前戏:

1.0缺失值处理

1.1首先了解缺失值:

1.2缺失值判断与处理

1.3补全缺失值

2.0重复项处理

3.0修改数据

3.1replacing values

3.2轴索引修改


处理前戏:

多表合并:

1设置文件路径

data=pd.read_csv/ex

.shape()##查看数据规模和维度(行列各是多少)

.info()##查看数据结构

.describe()##只显示数值型的数据描述统计(观察数据为难点,需要经验)

.columns()##查看数据标签

header=None##取消默认第一行为列名

.value_counts() ##一般用来统计词频可以使用.keys().values()获取键、值

1.0缺失值处理

添加inplace=True###直接在原值上改变,在做好备份前慎用

只要改动原数据集就要进行索引重置

range(名字.shap[0])

1.1首先了解缺失值:

NaN:not a number

NA:not avaliable

None

1.2缺失值判断与处理

.isnull()##缺失值判断

.dropna##缺失值删除,对series,dataframe宝具

.dropna(how='all' ,axis=0)##删除全部为缺失值的行

.dropna(how='all' axis=1)##删除全部为缺失值的列

.dropna(thresh=数字)规定有几个预值,后删除

.notnull##缺失值删除,对series,dataframe宝具、

1.3补全缺失值

.fallna({列1:值1,列2,值2})##可以用常数来补全缺失值,填充缺失值是使用字典,可以指定不同的列用不同的值填充

.fallna(method='ffill',limit=数字)##默认以前一项作为填充,参数limit,限制填充选取最大范围

.fallna(XX.mean())##使用均值填充

2.0重复项处理

.duplicated()##返回布尔型数据,告知重复值的位置,可在后面加sum()得到有多少个重复项

drop_duplicated()##删除重复行

drop_duplicated(['列名'],keep='last')##可以指定列名,可以指定保留最后一个

3.0修改数据

str.lower()##将字母换为小写

lowercased.map(字典)##按照字典的指定进行匹配,注意要先改小写

3.1replacing values

一般负很大的值如-999等,将其替换为np.nan

.replace([选中被替换的值],[想要替换成的值])##替换值,[] ''等视情况添加

例子:data.replace({-999:np.nan,1000:0})##用字典的形式传递参数

3.2轴索引修改

.columns.values##提取列名

.strip()##去除前后空格,此函数一次只能处理一个数据

例:=[x.strip() for x in 名字]##列表推导式,一次去除所有前后空格

修改字段名称的⽅法有两种,⼀种是全盘修改:DataFrame.columns = ["新字段1","新字段2","新字段3","新字段4"]

另外⼀种修改⽅式是部分因⼦修改:DataFrame.rename(columns = {"旧字段1":"新字段1","就字段2":"新字段2"},inplace=True)。另外 rename 函数还可以修改数据表中某⾏或者某列数据,⾮常实⽤,你可以深⼊研究⼀下。

持续更新中ing

  • 4
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值