python数据挖掘入门与实践 pdf读书笔记_《数据挖掘》读书笔记

Data Analysis: with open source tools

18

预测分析

读书笔记

一、

全书概况

1.

作者简介

本书作者是

Philipp K. Janer

,他凭借着自己多年来担任物理学家和软件

工程师的经验,

为数据分析和数学建模提供咨询服务。

他是

Gnuplot

in

Action

Understanding Data with Graphs

(

Manning

出版)的作者,也在

O’Reilly

Network

IBM developerWorks

IEEE Software

发表过大量文章,拥有华盛顿

大学理论物理学博士学位。

2.

本书大纲

本书中文名为《数据之魅:基于开源工具的数据分析》,共分为四个部分

19

章节。

第一部分为

1

6

章,讲述的是如何通过图表技术来观察数据,分别介绍了

单变量、双变量、时间序列、多变量的图表技术应用。第二部分为

7-11

章,讲

述了如何通过各种建模方法来分析数据,

讨论了数量级估计和不确定性因素、

发模型的基本组件。

第三部分为

12-15

章,

着重阐述如何进行数据挖掘,

如何运

用模拟、

聚类等方法挖掘有用的知识。

第四部分为

16-19

章,

强调数据分析在商

业和金融等领域的实际应用。

另外,本书每章的最后都有一个标题为“工作坊”

的小节,介绍通过各种开源工具和源码库来实践当前章节所讲述的理论,例如

Python

R

gnuplot

Sage

等。

本书包含大量的模拟过程及结果展示,

并通过实例来阐述如何使用开源工具

来进行数据分析。

通过本书的阅读,

笔者可以清楚地了解这些方法的实际用法及

用途。

二、

18

预测分析

本章讨论的是如何直接根据数据来进行预测。

在第二部分中,

作者介绍了通

过构造某种概念模型来进行预测的方法,

但当环境复杂时,

我们可能面临着没办

法构造概念模型的问题,所以本章的预测法很好的解决了这一难题。

预测分析用于描述直接从数据中获取预测信息为目的的各种任务,

其中以下

三个应用领域比较突出,分别是:

1

)分类或者监督学习。将每个纪录分配到已

知的已经定义好的类集合中,如垃圾邮件的过滤;

2

)聚类或无监督学习。将纪

录归并为簇,但簇是未知的。

3

)推荐。根据以往的兴趣或者习惯来推荐一个合

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值