数据分析——数据处理

最新推荐文章于 2024-07-15 12:58:02 发布

小枍~

最新推荐文章于 2024-07-15 12:58:02 发布

阅读量1.6k

点赞数 2

分类专栏： python——数据分析

本文链接：https://blog.csdn.net/doarwh/article/details/117258940

版权

python——数据分析专栏收录该内容

11 篇文章 3 订阅

订阅专栏

本文详细介绍了数据预处理的步骤，包括数据清洗的缺失值处理（查看、查找、删除、填充），重复值的查找与删除，异常值的识别与处理。此外，还讲解了日期数据的转换方法以及如何提取时间信息和添加新列。在数据整理阶段，展示了如何提取日期的年、月、日，并介绍如何将整理后的数据写入CSV文件。强调了离群值处理的重要性，提醒不应盲目剔除，可能涉及数据错误。

摘要由CSDN通过智能技术生成

数据处理步骤

1.数据清洗

1）处理缺失值
①查看
df.info():查看数据基本信息
②查找
df.isna():查找DataFrame对象缺失值，缺失数据用True表示，False表示不缺失
df[‘列索引’].isna():指定列查找缺失值
Series.isna():查找Series对象缺失值
③删除
df.dropna():删除两大对象中含有缺失的数据(行)
df.dropna(subset=[‘列索引’]):删除指定列缺失的行
④填充
fillna()方法给缺失值填充数据
df[‘列索引’]=df[‘列索引’].fillna(‘补充数据’)
2）处理重复值
①查找
df.duplicated():查找DataFrame对象重复值，返回Series对象，重复为True,不重复为False
②查看
df[df.duplicated()]:列表索引查看数据（重复数据）
③删除
df.drop_duplicates():删除重复行
3）处理异常值
df.describe():描述性统计,返回以下结果

函数	含义
count	频数统计
mean	平均值
std	标准差
min	最小值
max	最大值
median	中位数

计算机系统里：e+n代表的是10的n次方
布尔索引：对数据进行筛选：eg:df[年龄]>0
4）转换日期数据
pd.to_datatime(arg,format)
arg:pd[‘列索引’]=要转化的数据
format:format=’%Y-%m-%d’,占位匹配符在‘Y’,‘m’,'d’之前。Y大写，m和d小写

2.数据整理

提取时间信息：
Series.dt.year:提取年
Series.dt.month:提取月
Series.dt.day:提取日
添加新列：
df[‘colname’]=Series

3.数据写入

df.to_csv(path,encoding),index=False:将整理好的数据写入CSV文件中，index表示取消写入行索引
path为文件路劲（相对路径\绝对路径）
encoding为编码格式

4.离群值（outliers）

1)通过业务/领域知识，统计指标、数据可视化(描述性统计)识别离群值。
2)不可条件反射般剔除
3）数据丢失/录入或记录错误导致
知识点：集中趋势指标，离散趋势指标，双称正态分布且数据连续，偏态分布，类别数据（CDA考试知识点已列出来）

小枍~

关注

2
点赞
踩
35

收藏

觉得还不错? 一键收藏
0
评论
数据分析——数据处理

数据处理步骤1.数据清洗1）处理缺失值 ①查看 df.info():查看数据基本信息 ②查找 df.isna():查找DataFrame对象缺失值，缺失数据用True表示，False表示不缺失 df[‘列索引’].isna():指定列查找缺失值 Series.isna():查找Series对象缺失值 ③删除 df.dropna():删除两大对象中含有缺失的数据(行) df.dropna(subset=[‘列索引’]):删除指定列缺失的行 ④填充 fillna()方法给
复制链接

扫一扫

专栏目录