《利用Python进行数据分析》学习笔记 第12章 pandas高级应用

《利用python进行数据分析》

第12章 pandas高级应用

12.1 分类数据

  • 背景和目的

在数据仓库中,最好的方法是使用所谓的包含不同值的维表(Dimension Table),将主要的参数存储为引用维表整数键:

可以使用take方法存储原始的字符串Series:

  • 用分类进行计算

Seed ( )方法改变随机数生成器的种子,可以在调用其他随机模块函数之前调用此函数。

  • 用分类提高性能

若数据的实际分类集超出了数据中的值,可以使用set_categories方法改变:

pandas的Series的分类方法: 

12.2 Groupby高级应用

  • 分组转换和“解封”GroupBy

使用TimeGrouper的限制是时间必须是Series或DataFrame的索引。

12.3 链式编程技术

DataFrame.assign方法是一个df[k] = v形式的函数式的列分配方法。它不是就地修改对象,而是返回新的修改过的DataFrame。

  • 管道方法

需要使用自己的函数或第三方库的函数时要用到管道方法,当使用接收、返回series或DataFrame对象的函数式,需要调用pipe将其重写,f(df)和df.pipe(f)是等价的,但是pipe使得链式声明更容易。

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值