1.pandas数据结构:Series和DataFrame。
1.1.Series是一种类似于一位数组的对象,它由一组数据以及一组与之相关的数据的标签组成。
1.2.NaN:Not aNumber,非数字,表示缺失或是NA值。
1.3.pandas中的index,将轴标签表示为一个由python对象组成的Numpy数组。Index对象不可修改。
1.4.对于一个DataFrame,每条轴都可以有分层索引。
2.大部分存储在磁盘上的表格类型数据都能用pandas.read_table进行加载。对于任何单字符号符分隔符文件,可以直接使用python内置的CSV模块,将任意已打开的文件或文件类型的对象传给CSV.reader。
3.通过JSON.loads即可将JSON字符串转换成Python形式。
3.XML(ExtensibleNarkup Language)是另一种常见的支持分层。嵌套数据以及元数据的结构化格式。
4.存储在MongoDB中的文档被组织在数据库的集合中,MongoDB服务器的每个运行实例可以村多个数据库,而每个数据又可以有多个集合。
5.Pandas对象中的数据可以同郭一些内置方式进行合并。
5.1.pandas.merge可根据一个或多个键将不同DataFrame中的行连接起来。SQL或其他关系型数据的用户对此应该会比较熟悉。实现数据库的连接操作。
5.2.Pandas.contact可以沿着一条轴将多个对象堆叠到一起。
5.3.实例方法combine.first可以将重复数据编接在一起。用一个对象中的值填充另一个对象中的缺失值。
5.4.默认情况下,merge做的是inner链接,结果中的健是交集。
6.DataFrame中的join实例方法,实现按索引合并。用于合并多个带有相同或相似索引的DataFrame对象。
7.层次化索引为DataFrame数据的重排任务提供了一种具有良好一致性的方式。
7.1.stack:将数据的列“旋转”为行。
7.2.unstack:将数据的行“旋转”为列。
stack默认会滤除缺失数据,该运算是可逆的。