数据科学家之路 chapter2 --- pandas(part1)

这个部分将会介绍python中处理数据最重要的工具之一---------pandas,主要涉及是其中一些操作。

因为自己之前没有了解到这些功能,导致花了很多时间去自己实现,这里做一个总结,为了提高之后的效率。

一.Series

1.先创建一个Series:

  

2.通过索引方式去选取值:

3.再利用下numpy就能更方便的处理数据:

4.Series的一个重要作用是:在算数运算中自动对齐不同索引的数据(有点像merge的效果)

这里有相同的它就加上去,没有就不处理,赋空值。

二.DataFrame

1.创建DataFrame的方法就很多,这里举出典型的几种:

2.DataFrame的一些基本操作:

三.接下来是一些tricks

1.改变colunmns

2.关于删除

3.排序

4.条件选择

5.pandas两种基本类型的迭代

6.对类型进行操作,这里要注意我们可以利用类型转换去节省内存

上面实现的功能是只把数值型的数据找出来。

7.关于axis

8.字符串操作(其实pandas也支持字符串的某些函数)

9.改变数据类型

那么能不能在读取数据之前就规定数据类型呢,我们要知道这是省内存的一个好方法:

10.groupby(非常有用的操作)

最后我们来尝试一波可视化

 

11.如何处理一个Series

12.处理缺失值

13.关于index

14.关于loc 和 iloc 这两个磨人小妖精(因为我一直没搞清楚这个......)
首先是loc

再来看iloc

接下来是重点!!!它们的区别!!!

15.如何省内存

首先看一下数据的信息

一个很重要的东西:category可以给数据添加逻辑规律

16.对类别型变量进行编码

17.读取时的一些操作(面对大数据集的应对措施)

to be continued...

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值