数据科学家之路 chapter2 --- pandas(part1)

最新推荐文章于 2022-12-07 17:13:32 发布

置顶李呵呵1997

最新推荐文章于 2022-12-07 17:13:32 发布

阅读量995

点赞数 3

分类专栏：数据科学

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chris_lee_hehe/article/details/78303111

版权

数据科学专栏收录该内容

11 篇文章 2 订阅

订阅专栏

这个部分将会介绍python中处理数据最重要的工具之一---------pandas，主要涉及是其中一些操作。

因为自己之前没有了解到这些功能，导致花了很多时间去自己实现，这里做一个总结，为了提高之后的效率。

一.Series

1.先创建一个Series:

2.通过索引方式去选取值:

3.再利用下numpy就能更方便的处理数据：

4.Series的一个重要作用是：在算数运算中自动对齐不同索引的数据(有点像merge的效果)

这里有相同的它就加上去，没有就不处理，赋空值。

二.DataFrame

1.创建DataFrame的方法就很多，这里举出典型的几种:

2.DataFrame的一些基本操作：

三.接下来是一些tricks

1.改变colunmns

2.关于删除

3.排序

4.条件选择

5.pandas两种基本类型的迭代

6.对类型进行操作，这里要注意我们可以利用类型转换去节省内存

上面实现的功能是只把数值型的数据找出来。

7.关于axis

8.字符串操作（其实pandas也支持字符串的某些函数）

9.改变数据类型

那么能不能在读取数据之前就规定数据类型呢，我们要知道这是省内存的一个好方法：

10.groupby（非常有用的操作）

最后我们来尝试一波可视化

11.如何处理一个Series

12.处理缺失值

13.关于index

14.关于loc 和 iloc 这两个磨人小妖精(因为我一直没搞清楚这个......)
首先是loc

再来看iloc

接下来是重点！！！它们的区别！！！

15.如何省内存

首先看一下数据的信息

一个很重要的东西：category可以给数据添加逻辑规律

16.对类别型变量进行编码

17.读取时的一些操作(面对大数据集的应对措施)

to be continued...

关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。