【儒冠多误身】个人数据处理基本流程【简述】

最新推荐文章于 2022-01-19 21:03:53 发布

儒冠多误身

最新推荐文章于 2022-01-19 21:03:53 发布

阅读量470

点赞数

分类专栏： 201812 Learning Day 数据分析文章标签：数据处理流程个人心得儒冠多误身

本文链接：https://blog.csdn.net/DataFrame/article/details/84850927

版权

Learning Day 同时被 3 个专栏收录

10 篇文章 0 订阅

订阅专栏

数据分析

5 篇文章 0 订阅

订阅专栏

201812

3 篇文章 0 订阅

订阅专栏

数据处理基本流程

儒冠多误身——个人总结-20181206

20181206数据处理流程总结

预处理
1. 读取
2. 观察
  1. 数据维度.shape
  2. 数据属性info()
  3. head()
3. 合并
  1. 多表关联
NaN–>排序–>去重
1. 缺失值处理df.dropna()
  1. 缺失值诊断df.isnull()
  2. 缺失值统计
  3. 缺失值-舍弃
    1. 行处理
    2. 列处理
  4. NaN-填补-df.fillna()
    1. 向前向后
```
df.fillna(method = 'ffill')#向后
df.fillna(method = 'bfill',limit=3)#控制填补数量
```
    2. 填充统计数据【均值、中位数、众数】
```
df['col'].fillna(df['col'].mean())
df['col'].fillna(df.groupby('')['col'].transform('mean')
```
  5. 内插法补齐【处理有规律的数据】df.interpolater()
2. 先排序【再去重】
  1. 因为排序会将该列NaN放在后面，确保之后的对其他列去重时，保留的该列元素不会为NaN
3. 再去重
```
   df.drop_duplicated(subset = ['col_2','col_5','col_6'])
```
数据类型，异常值处理，数据离散化分析（分箱）
- 类型转换
  - 时间格式转换（Python，MySQL，Excel）
    - 时间单位转换
- 异常值处理
  - 从常识、业务角度查找异常值
  - 数据可视化，查找异常值
数据抽样sampling
1. .sample()
  - 取随机样本
  - DataFrame.sample(n=None, frac=None, replace=False,weights=None, random_state=None, axis=None*)
```
s.sample(n = 3)# 选3个随机元素
df.sample(frac = 0.1) # 随机取10%的元素
df.sample(n = 3)# 随机取3行
```
2. 时间采样Series.resample()【详解笔记时间序列部分】
字符串处理
1. df['col'].str.*函数
```
df['col'].str.extract()#按字符串样式抽取【简单举例】
```
2. 用正则表达式处理
3. 用自建函数处理
行列取舍
1. 结合业务，先删除和分析无关的指标
2. 查看相关系数矩阵
3. 查看多重共线性
4. 相关性太大的可以考虑删除此列；
5. 如果变量比较重要，可以考虑主成分/因子分析进行降维处理

个人数据处理基本流程整理完毕

2018-12-06

儒冠多误身

儒冠多误身

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【儒冠多误身】个人数据处理基本流程【简述】

数据处理基本流程儒冠多误身——个人总结-20181206预处理读取观察数据维度.shape数据属性info()head()合并多表关联NaN–&amp;amp;amp;gt;排序–&amp;amp;amp;gt;去重缺失值处理df.dropna()缺失值诊断df.isnull()缺失值统计缺失值-舍弃行处理列处理NaN
复制链接

扫一扫