很多技术书籍读完就忘,现在想想是由于没有做好要点记录。现在阅读技术书籍的时候,将一些个人认为比较重要的知识点记录下来,这样以后需要的时候翻看博客即可。
numpy基础:
numpy库的相关函数都是基于ndarray这个数据结构进行的,理解这个数据结构的一些用法至关重要。
ndarray可以视为特殊的数组,python常用的列表数据结构等可以转换成array结构。array结构的一个很重要的特点就是矢量化:
数组很重要,因为它使你不用编写循环即可对数据执行批量运算,叫做矢量化。当遇到数组与标量之间的运算,如a*2,a>1这种,实质是就是对数组中的每个元素都执行这样的操作。
数组切片是原始数组的视图,对数组切片进行修改,实质是就是修改原始数组。如b=a[1:5], b[0]=1.这种语句实质上也是对a进行修改。
布尔型索引(记住下面这个例子):
Pandas基础:
pandas的数据结构有两种:series, dataframe
series可以看成是有标签索引的数组,有点像字典,可以通过索引来访问数据(但是也默认可以通过下标来访问数据)。
pandas的isnull和notnull方法可以用来检测缺失数据,用法如:pd.isnull(a)。pandas中使用NaN来标识缺失数据
series最重要的一个功能:在算术运算中会自动对齐不同索引的数据。 series对象本身及其索引都有一个name属性,可以有obj.name obj.index.name这些访问方式。
DataFrame是表格型的数据结构,既有行索引也有列索引,也可看成是由series构成的字典
如上图所示,一个dataframe的每一列可以看成是一个series,这些不同的列共享行索引,而每一列都有自己的名字,可以通过列名来具体获取每一列,从这个角度看,
dataframe也可以视为多个series构成的字典,字典的键值是列的name。一个dataframe的每一行可以看成是一个特殊的dataframe,dataframe的每一行也可以看成是一个基本元素。可以通过行索引访问如df.ix[0]。
dataframe有比较特殊的索引方式:
上面第1个例子,采用data[2]这种语法反而会出错。第二个例子的语法则要特别注意,用的应当比较多。
ix具有标签索引功能:
pandas对象有一些常用的数理统计的基本方法,如求均值,最大值等等
这类方法可以作用于dataframe对象的每列(默认)或者每行(axis=1)
数据集合并:
利用函数或者映射进行数据转换:
替换值:
计算指标:
groupby技术:
分组级运算和转换:
粗略过了一下这本书的部分内容,这本书写的是非常好。接下来再去看看pandas的一些turitual应该会感觉好很多。