最近看到有人在问,在数据分析、挖掘方面,有哪些好书值得推荐?
推荐三本书,分别是统计、编程、算法方向的核心教程,非常适合新手去看。
- Statistics for Business and Economics-商务与经济统计
- Python for Data Analysis-利用Python进行数据分析
- Introduction to Data Mining-数据挖掘导论
如果你是学R的,可以再加一本R语言实战
为什么选这三本书呢?
我们常说道之本源,术之方法,这三本书就是告诉你数理统计的本源,帮你上手数据分析挖掘的方法。
商务与经济统计
这是国内外很多大学的统计教材,内容非常全面,只要认真读过,就对统计学有一个全面且通透的认知。但不要认为这是教材,就觉得它枯燥啰嗦,相反这本书很精彩。
本书第一作者安德森是统计学教育名家,撰有多部统计学教材。书内涵盖范围广泛,涉及了应用统计学在当代商务经济领域中几乎所有的重要应用,并且将统计软件(包括Excel,SPSS,Minitab)的使用贯穿全书。
而且这本书是知识点和公式大多是基于实践案例,有丰富的使用场景,可读性极强。
我觉得每个需要数据分析的人,不管是在校或已经工作,都应该好好读读统计学,这本书就是最合适的起点。
目录
第1章 数据与统计资料
第2章 描述统计学Ⅰ:表格法和图形法
第3章 描述统计学Ⅱ:数值方法
第4章 概率
第5章 离散型概率分布
第6章 连续型概率分布
第7章 抽样和抽样分布
第8章 区间估计
第9章 假设检验
第10章 两总体均值和比例的推断
第11章 总体方差的统计推断
第12章 多个比例的比较、独立性及拟合优度检验
第13章 实验设计与方差分析
…
利用Python进行数据分析
如果说统计学是道,那么Python就是术,可以实现你一切想法的最佳工具。
这本书是很多Python数据科学爱好者的入门导师。它讲解了Python数据科学库IPython、Pandas、Numpy、Matplotlib、sklearn的使用,如果玩转这几大工具,任何复杂的数据处理、建模任务都能搞定。
它的作者-Wes McKinney,是Pandas的核心开发人员,也就是说牛逼哄哄的Pandas和这本书有同一个爸爸。
因此本书对Pandas的着墨也是最多的,从数据类型、索引、切片、读写…,到数据清洗、分组聚合、连接、透视…,再到高阶的时间序列、建模…,几乎无所不涵盖。
另外,本书对IPython、Jupyter、Statsmodels等辅助库也有较多的介绍。
如果真的想学习Python数据分析,建议把书里的每个案例代码都手敲一遍,我是这样做了。
目录
第1章 准备工作
第2章 Python语言基础、IPython及Jupyter notebook
第3章 内建数据结构、函数及文件
第4章 NumPy基础:数组与向量化计算
第5章 pandas入门
第6章 数据载入、存储及文件格式
第7章 数据清洗与准备
第8章 数据规整:连接、联合与重塑
第9章 绘图与可视化
第10章 数据聚合与分组操作
第11章 时间序列
第12章 高阶pandas
第13章 Python建模库介绍
第14章 数据分析示例
数据挖掘导论
这本书很注重实例,围绕案例详细介绍了数据挖掘理论,涵盖五个主题:数据、分类、关联分析、聚类和异常检测。除异常检测外,每个主题都有两章。前一章涵盖基本概念、代表性算法和评估技术,而后一章讨论高级概念和算法。
对初学者来说,不需要多好的数学和编程基础,也不会被高深艰涩的理论吓退,相反能在书中找到很多浅显易懂的算法应用。
本书是明尼苏达大学和密歇根州立大学数据挖掘课程的教材,由于独具特色,正式出版之前就已经被斯坦福大学、得克萨斯大学奥斯汀分校等众多名校采用。
目录
第1章 绪论
第2章 数据
第3章 探索数据
第4章 分类:基本概念、决策树与模型评估
第5章 分类:其他技术
第6章 关联分析:基本概念和算法
第7章 关联分析:高级概念
第8章 聚类分析:基本概念和算法
第9章 聚类分析:其他问题与算法
第10章 异常检测
小结
这三本是我学习过程中获益比较大的书,也是读起来不那么费力的。