《动手学数据分析》第二章学习笔记

《动手学数据分析》第二章学习笔记

1.缺失值观察与处理
查看数据信息
df.info()
缺失值统计
df.isnull().sum()

df.isnull().any()
缺失值处理
  • isnull()用来找出缺失值的位置,返回一个bull类型的掩码标记缺失值

  • notnull()是找出非空值并用bull值进行标记

  • dropna()就是字面意思,即丢掉缺失值

df.dropna(axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
  • fillna()的作用是填充缺失值
2.重复值观察与处理
查看重复值
df.duplicated()
处理重复值

duplicated():用于标记是否有重复值

duplicated(subset=None, keep=“first”)

drop_duplicates():用于删除重复值

drop_duplicated(subset=None, keep=“first”, inplace=False)
3.特征观察与处理

离散化处理

​ 实现连续数据离散化处理主要基于两个函数,pandas.cut 和 pandas.qcut,前者根据指定分界点对连续数据进行分箱处理,后者则可以根据指定箱子的数量对连续数据进行等宽分箱处理,所谓等宽指的是每个箱子中的数据量是相同的

eg:将“年龄”分为5个区间

df['AgeBand'] = pd.cut(df['Age'],[0,5,15,30,50,80],labels = [1,2,3,4,5])
df.head()
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值