《
Data Analysis: with open source tools
》
第
18
章
预测分析
读书笔记
一、
全书概况
1.
作者简介
本书作者是
Philipp K. Janer
,他凭借着自己多年来担任物理学家和软件
工程师的经验,
为数据分析和数学建模提供咨询服务。
他是
Gnuplot
in
Action
:
Understanding Data with Graphs
(
Manning
出版)的作者,也在
O’Reilly
Network
、
IBM developerWorks
和
IEEE Software
发表过大量文章,拥有华盛顿
大学理论物理学博士学位。
2.
本书大纲
本书中文名为《数据之魅:基于开源工具的数据分析》,共分为四个部分
19
章节。
第一部分为
1
-
6
章,讲述的是如何通过图表技术来观察数据,分别介绍了
单变量、双变量、时间序列、多变量的图表技术应用。第二部分为
7-11
章,讲
述了如何通过各种建模方法来分析数据,
讨论了数量级估计和不确定性因素、
开
发模型的基本组件。
第三部分为
12-15
章,
着重阐述如何进行数据挖掘,
如何运
用模拟、
聚类等方法挖掘有用的知识。
第四部分为
16-19
章,
强调数据分析在商
业和金融等领域的实际应用。
另外,本书每章的最后都有一个标题为“工作坊”
的小节,介绍通过各种开源工具和源码库来实践当前章节所讲述的理论,例如
Python
、
R
、
gnuplot
、
Sage
等。
本书包含大量的模拟过程及结果展示,
并通过实例来阐述如何使用开源工具
来进行数据分析。
通过本书的阅读,
笔者可以清楚地了解这些方法的实际用法及
用途。
二、
第
18
章
预测分析
本章讨论的是如何直接根据数据来进行预测。
在第二部分中,
作者介绍了通
过构造某种概念模型来进行预测的方法,
但当环境复杂时,
我们可能面临着没办
法构造概念模型的问题,所以本章的预测法很好的解决了这一难题。
预测分析用于描述直接从数据中获取预测信息为目的的各种任务,
其中以下
三个应用领域比较突出,分别是:
1
)分类或者监督学习。将每个纪录分配到已
知的已经定义好的类集合中,如垃圾邮件的过滤;
2
)聚类或无监督学习。将纪
录归并为簇,但簇是未知的。
3
)推荐。根据以往的兴趣或者习惯来推荐一个合