Python 数据清洗1.0(个人笔记）

Ambereyes

已于 2023-01-13 20:46:21 修改

阅读量255

点赞数 4

分类专栏：笔记文章标签： python

于 2020-11-26 12:46:58 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_48563251/article/details/110181006

版权

笔记专栏收录该内容

6 篇文章 0 订阅

订阅专栏

目录

处理前戏：

1.0缺失值处理

1.1首先了解缺失值：

1.2缺失值判断与处理

1.3补全缺失值

2.0重复项处理

3.0修改数据

3.1replacing values

3.2轴索引修改

处理前戏：

多表合并：

1设置文件路径

data=pd.read_csv/ex

.shape()##查看数据规模和维度（行列各是多少）

.info()##查看数据结构

.describe()##只显示数值型的数据描述统计（观察数据为难点，需要经验）

.columns()##查看数据标签

header=None##取消默认第一行为列名

.value_counts() ##一般用来统计词频可以使用.keys()、.values()获取键、值

1.0缺失值处理

添加inplace=True###直接在原值上改变，在做好备份前慎用

只要改动原数据集就要进行索引重置

range(名字.shap[0])

1.1首先了解缺失值：

NaN:not a number

NA:not avaliable

None

1.2缺失值判断与处理

.isnull()##缺失值判断

.dropna##缺失值删除，对series，dataframe宝具

.dropna(how='all' ,axis=0)##删除全部为缺失值的行

.dropna(how='all' axis=1)##删除全部为缺失值的列

.dropna（thresh=数字）规定有几个预值，后删除

.notnull##缺失值删除，对series，dataframe宝具、

1.3补全缺失值

.fallna({列1：值1，列2，值2})##可以用常数来补全缺失值，填充缺失值是使用字典，可以指定不同的列用不同的值填充

.fallna(method='ffill'，limit=数字)##默认以前一项作为填充，参数limit，限制填充选取最大范围

.fallna（XX.mean()）##使用均值填充

2.0重复项处理

.duplicated()##返回布尔型数据，告知重复值的位置，可在后面加sum()得到有多少个重复项

drop_duplicated()##删除重复行

drop_duplicated(['列名'],keep='last')##可以指定列名，可以指定保留最后一个

3.0修改数据

str.lower()##将字母换为小写

lowercased.map(字典)##按照字典的指定进行匹配，注意要先改小写

3.1replacing values

一般负很大的值如-999等，将其替换为np.nan

.replace([选中被替换的值],[想要替换成的值])##替换值，[] ''等视情况添加

例子：data.replace({-999:np.nan,1000:0})##用字典的形式传递参数

3.2轴索引修改

.columns.values##提取列名

.strip()##去除前后空格，此函数一次只能处理一个数据

例：=[x.strip() for x in 名字]##列表推导式，一次去除所有前后空格

修改字段名称的⽅法有两种，⼀种是全盘修改：DataFrame.columns = ["新字段1","新字段2","新字段3","新字段4"]

另外⼀种修改⽅式是部分因⼦修改：DataFrame.rename(columns = {"旧字段1":"新字段1","就字段2":"新字段2"},inplace=True)。另外 rename 函数还可以修改数据表中某⾏或者某列数据，⾮常实⽤，你可以深⼊研究⼀下。

持续更新中ing

关注

4
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。