这个部分将会介绍python中处理数据最重要的工具之一---------pandas,主要涉及是其中一些操作。
因为自己之前没有了解到这些功能,导致花了很多时间去自己实现,这里做一个总结,为了提高之后的效率。
一.Series
1.先创建一个Series:
2.通过索引方式去选取值:
3.再利用下numpy就能更方便的处理数据:
4.Series的一个重要作用是:在算数运算中自动对齐不同索引的数据(有点像merge的效果)
这里有相同的它就加上去,没有就不处理,赋空值。
二.DataFrame
1.创建DataFrame的方法就很多,这里举出典型的几种:
2.DataFrame的一些基本操作:
三.接下来是一些tricks
1.改变colunmns
2.关于删除
3.排序
4.条件选择
5.pandas两种基本类型的迭代
6.对类型进行操作,这里要注意我们可以利用类型转换去节省内存
上面实现的功能是只把数值型的数据找出来。
7.关于axis
8.字符串操作(其实pandas也支持字符串的某些函数)
9.改变数据类型
那么能不能在读取数据之前就规定数据类型呢,我们要知道这是省内存的一个好方法:
10.groupby(非常有用的操作)
最后我们来尝试一波可视化
11.如何处理一个Series
12.处理缺失值
13.关于index
14.关于loc 和 iloc 这两个磨人小妖精(因为我一直没搞清楚这个......)
首先是loc
再来看iloc
接下来是重点!!!它们的区别!!!
15.如何省内存
首先看一下数据的信息
一个很重要的东西:category可以给数据添加逻辑规律
16.对类别型变量进行编码
17.读取时的一些操作(面对大数据集的应对措施)
to be continued...