《利用python 进行数据分析》要点记录

最新推荐文章于 2024-07-15 12:58:02 发布

messiran10

最新推荐文章于 2024-07-15 12:58:02 发布

阅读量753

点赞数 2

分类专栏： python数据挖掘

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/messiran10/article/details/50699971

版权

python数据挖掘专栏收录该内容

13 篇文章

订阅专栏

很多技术书籍读完就忘，现在想想是由于没有做好要点记录。现在阅读技术书籍的时候，将一些个人认为比较重要的知识点记录下来，这样以后需要的时候翻看博客即可。

numpy基础：

numpy库的相关函数都是基于ndarray这个数据结构进行的，理解这个数据结构的一些用法至关重要。

ndarray可以视为特殊的数组，python常用的列表数据结构等可以转换成array结构。array结构的一个很重要的特点就是矢量化：

数组很重要，因为它使你不用编写循环即可对数据执行批量运算，叫做矢量化。当遇到数组与标量之间的运算，如a*2，a>1这种，实质是就是对数组中的每个元素都执行这样的操作。

数组切片是原始数组的视图，对数组切片进行修改，实质是就是修改原始数组。如b=a[1:5], b[0]=1.这种语句实质上也是对a进行修改。

布尔型索引（记住下面这个例子）：

Pandas基础：

pandas的数据结构有两种：series, dataframe

series可以看成是有标签索引的数组，有点像字典，可以通过索引来访问数据(但是也默认可以通过下标来访问数据)。

pandas的isnull和notnull方法可以用来检测缺失数据，用法如：pd.isnull(a)。pandas中使用NaN来标识缺失数据

series最重要的一个功能：在算术运算中会自动对齐不同索引的数据。 series对象本身及其索引都有一个name属性，可以有obj.name obj.index.name这些访问方式。

DataFrame是表格型的数据结构，既有行索引也有列索引，也可看成是由series构成的字典

如上图所示，一个dataframe的每一列可以看成是一个series，这些不同的列共享行索引，而每一列都有自己的名字，可以通过列名来具体获取每一列，从这个角度看，

dataframe也可以视为多个series构成的字典，字典的键值是列的name。一个dataframe的每一行可以看成是一个特殊的dataframe，dataframe的每一行也可以看成是一个基本元素。可以通过行索引访问如df.ix[0]。

dataframe有比较特殊的索引方式：

上面第1个例子,采用data[2]这种语法反而会出错。第二个例子的语法则要特别注意，用的应当比较多。

ix具有标签索引功能：

pandas对象有一些常用的数理统计的基本方法，如求均值，最大值等等

这类方法可以作用于dataframe对象的每列（默认）或者每行（axis=1）

数据集合并：

主要有两个函数方法：merge concat

merge方法主要是用于将两个dataframe中公共的属性进行合并，放到一个表中。记住下面的例子：

concat方法则是可以沿着一条轴将多个对象叠加到一起。

利用函数或者映射进行数据转换：

使用map函数是一种实现元素级转换以及其他数据清理工作的便捷方式

替换值：

使用replace函数

计算指标：

这个函数应该用的蛮多的，可以理解成标识矩阵。

groupby技术：

groupby技术也是在dataframe不同列的数据之间建立联系的一种方式。这种技术可以对其中部分列的键值进行组合，然后依据组合的值来进行分组。需要注意的是

b=a.groupby([]),这里的b是group_by对象而不是dataframe对象，因此是没法直接打印出来b的结果的。只能通过该对象的一些方法，如size等等来进行观察或者聚合操作。

分组级运算和转换：

transform和apply方法

transform会将一个函数应用到各个分组，然后将结果放置在合适的位置上。

粗略过了一下这本书的部分内容，这本书写的是非常好。接下来再去看看pandas的一些turitual应该会感觉好很多。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。