第一章 准备工作
这一章主要介绍了一些和数据分析相关的重要Python库,包括NumPy、pandas和matplotlib,然后有编译环境IPython。之后讲了一些准备工作,包括EPD(现在更新为了enthought canopy)的安装、pandas的安装。都是一些准备工作,比较简单。
第二章 引言
之前学习《learn python the hard way》,习惯了小步前进的节奏,突然上来跟了些代码,完全摸不着头脑,于是去网上看了一下别人的学习笔记,发现大家都是跟着敲代码走的。这一章主要是用三个简单的例子介绍了python在数据处理方面的大体功能。
1、来自bit.ly的1.usa.gov数据。
(1)列表推导式:records = [json.loads(line) for line in open(path)]
(2)分别用python代码和pandas对时区数进行计数。
(3)对统计数据画图。
2、MovieLens 1M数据集
3、1880-2010年间全美婴儿姓名数据的处理。
从内容中可以看出,都是在给定数据的前提下,教大家怎么使用python包对数据进行分类、处理和表达。