第七章 数据清洗与准备

根据惯例,来个目录:

1.处理缺失值

pandas对象的所有描述统计信息默认情况下是排除缺失值的。

1.1缺失值的表现及检测

1.2过滤缺失值

1.3补全缺失值

2.数据转换——数据的过滤、清洗、及其其他转换

2.1删除重复值

2.2使用函数或映射进行数转

2.3替代值

fillna填充缺失值,是通用值替换的特殊案例;map可以用来修改一下对象中的子集;

2.4重命名轴索引

2.5离散化和分箱

连续值经常需要离散化,或者分离成“箱子”进行分析

2.6检测和过滤异常值——常用于数组的操作

2.7置换和随机采样

2.8计算指标/虚拟变量

3.字符串

3.1字符串对象方法

3.2正则表达式——需要系统学习

3.3向量化字符串——之后再学习哈

 

【开始】在进行数据分析和建模的时候,大量的时间花在数据的准备上:加载、清理、转换和重新排列上。这样的工作占据了80%的时间。
在统计学应用中,NA数据可以使不存在的数据 或者 存在但是不可观察的数据(例如数据收集过程中出现了问题)。
当清洗数据用于分析时,对缺失数据本身进行分析以确定数据收集问题 或者 数据丢失导致的数据偏差 通常很重要

1.处理缺失值

pandas对象的所有描述统计信息默认情况下是排除缺失值的。

1.1缺失值的表现及检测

1.2过滤缺失值

1.3补全缺失值

有时需要补全缺失值(fillna),不一定一定要丢弃缺失值

2.数据转换——数据的过滤、清洗、及其其他转换

2.1删除重复值

2.2使用函数或映射进行数转换

2.3替代值

fillna填充缺失值,是通用值替换的特殊案例;map可以用来修改一下对象中的子集;

2.4重命名轴索引

2.5离散化和分箱

连续值经常需要离散化,或者分离成“箱子”进行分析

###其返回的是一个特殊的categoriacal对象,可以将其看做一个表示箱名的字符串数组,
#他在内部包含了一个类别数组,指定了不同的类别名称以及codes属性中的ages数据标签。

##如果传给cut整数个箱来代替显式的箱边,
#pandas将根据数据中的最大值和最小值计算出等长的箱。(平均分配)

2.6检测和过滤异常值——常用于数组的操作

2.7置换和随机采样

np.random.permutation对series或行进行置换(随机排序),

2.8计算指标/虚拟变量

将分类变量转换为“虚拟”或“指标”举证,是另一种用于统计建模或机器学习的转换操作。
如果dataframe中的一列有k个不同的值,则可以衍生出k列的值为0或1的矩阵。

3.字符串

3.1字符串对象方法

3.2正则表达式——需要系统学习

3.3向量化字符串——之后再学习哈

【暂时完毕】

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值