《利用python 进行数据分析》要点记录

很多技术书籍读完就忘,现在想想是由于没有做好要点记录。现在阅读技术书籍的时候,将一些个人认为比较重要的知识点记录下来,这样以后需要的时候翻看博客即可。


numpy基础:

numpy库的相关函数都是基于ndarray这个数据结构进行的,理解这个数据结构的一些用法至关重要。

ndarray可以视为特殊的数组,python常用的列表数据结构等可以转换成array结构。array结构的一个很重要的特点就是矢量化:

数组很重要,因为它使你不用编写循环即可对数据执行批量运算,叫做矢量化。当遇到数组与标量之间的运算,如a*2,a>1这种,实质是就是对数组中的每个元素都执行这样的操作。


数组切片是原始数组的视图,对数组切片进行修改,实质是就是修改原始数组。如b=a[1:5], b[0]=1.这种语句实质上也是对a进行修改。


布尔型索引(记住下面这个例子):




Pandas基础:

pandas的数据结构有两种:series, dataframe


series可以看成是有标签索引的数组,有点像字典,可以通过索引来访问数据(但是也默认可以通过下标来访问数据)。


pandas的isnull和notnull方法可以用来检测缺失数据,用法如:pd.isnull(a)。pandas中使用NaN来标识缺失数据


series最重要的一个功能:在算术运算中会自动对齐不同索引的数据。 series对象本身及其索引都有一个name属性,可以有obj.name obj.index.name这些访问方式。


 DataFrame是表格型的数据结构,既有行索引也有列索引,也可看成是由series构成的字典 


如上图所示,一个dataframe的每一列可以看成是一个series,这些不同的列共享行索引,而每一列都有自己的名字,可以通过列名来具体获取每一列,从这个角度看,

dataframe也可以视为多个series构成的字典,字典的键值是列的name。一个dataframe的每一行可以看成是一个特殊的dataframe,dataframe的每一行也可以看成是一个基本元素。可以通过行索引访问如df.ix[0]。



dataframe有比较特殊的索引方式:




上面第1个例子,采用data[2]这种语法反而会出错。第二个例子的语法则要特别注意,用的应当比较多。



ix具有标签索引功能:




pandas对象有一些常用的数理统计的基本方法,如求均值,最大值等等

这类方法可以作用于dataframe对象的每列(默认)或者每行(axis=1)


数据集合并:

主要有两个函数方法:merge concat
merge方法主要是用于将两个dataframe中公共的属性进行合并,放到一个表中。记住下面的例子:

concat方法则是可以沿着一条轴将多个对象叠加到一起。




利用函数或者映射进行数据转换:


使用map函数是一种实现元素级转换以及其他数据清理工作的便捷方式

替换值:

使用replace函数

计算指标:


这个函数应该用的蛮多的,可以理解成标识矩阵。

groupby技术:


groupby技术也是在dataframe不同列的数据之间建立联系的一种方式。这种技术可以对其中部分列的键值进行组合,然后依据组合的值来进行分组。需要注意的是

b=a.groupby([]),这里的b是group_by对象而不是dataframe对象,因此是没法直接打印出来b的结果的。只能通过该对象的一些方法,如size等等来进行观察或者聚合操作。


分组级运算和转换:

transform和apply方法

transform会将一个函数应用到各个分组,然后将结果放置在合适的位置上。



粗略过了一下这本书的部分内容,这本书写的是非常好。接下来再去看看pandas的一些turitual应该会感觉好很多。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值