【1】机器学习实战peter Harrington——学习笔记

手可摘辰

已于 2022-02-25 14:06:31 修改

阅读量2.2k

点赞数 3

分类专栏：机器学习文章标签：机器学习深度学习 python

于 2022-02-22 18:55:10 首次发布

本文链接：https://blog.csdn.net/guansheng123/article/details/123074872

版权

机器学习专栏收录该内容

2 篇文章 0 订阅

订阅专栏

机器学习实战peter Harrington——学习笔记

综述
- 数据挖掘十大算法
- 本书结构
一、机器学习基础

综述

机器学习算法在包含信息检索和数据挖掘在内的多个领域都有着十分广泛的应用。本书没有从理论角度来揭示机器学习算法背后的数学原理，而是通过“原理简述+问题实例+ 实际代码+运行效果”来介绍每一个算法。

数据挖掘十大算法

数据以及基于数据做出决策是非常重要的，本书内容也是来源于数据——“数据挖掘十大算法”是IEEE数据挖掘国际会议（ICDM）上的一篇论文，2007年12月在Journal of Knowledge and Information Systems杂志上发表。依据知识发现和数据挖掘国际会议（KDD）获奖者的问卷调查结果，论文统计出排名前十的数据挖掘算法。本书的基本框架与论文中提到的算法基本一致。

论文选出的机器学习算法包括：C4.5决策树、K-均值（K-mean）、支持向量机（SVM）、Apriori、最大期望算法（EM）、PageRank算法、AdaBoost算法、k-近邻算法（kNN）、朴素贝叶斯算法（NB）和分类回归树（CART）算法。

本书结构

1、分类（一-七）
第一部分首先介绍了机器学习的基础知识，然后讨论如何使用机器学习算法进行分类。

2、利用回归预测数值型数据（八-九）
第二部分包含两章，讨论连续型数值的回归预测问题。

3、无监督学习（十-十二）
前两部分讨论的监督学习需要用户知道目标值，简单地说就是知道在数据中寻找什么。而第三部分开始讨论的无监督学习则无需用户知道搜寻的目标，只需要从算法程序中得到这些数据的共同特征。

4、其他工具
略。
在这里插入图片描述

一、机器学习基础

1.1 机器学习

简单地说，机器学习就是把无序的数据转换成有用的信息。

机器学习横跨计算机科学、工程技术和统计学等多个学科，需要多学科的专业知识。稍后你就能了解到，它也可以作为实际工具应用于从政治到地质学的多个领域，解决其中的很多问题。甚至可以这么说，机器学习对于任何需要解释并操作数据的领域都有所裨益。

机器学习用到了统计学知识。拿工程实践来说，它要利用科学知识来解决具体问题，在该领域中，我们常会面对那种解法确凿不变的问题。假如要编写自动售货机的控制软件，那就最好能让它在任何时候都能正确运行，而不必让人们再考虑塞进的钱或按下的按钮。然而，在现实世界中，并不是每个问题都存在确定的解决方案。在很多时候，我们都无法透彻地理解问题，或者没有足够的计算资源为问题精确建立模型，例如我们无法给人类活动的动机建立模型。为了解决这些问题，我们就需要使用统计学知识。

机器学习非常重要。在过去的半个世纪里，发达国家的多数工作岗位都已从体力劳动转化为脑力劳动。过去的工作基本上都有明确的定义，类似于把物品从A处搬到B处，或者在这里打个洞，但是现在这类工作都在逐步消失。现今的情况具有很大的二义性，类似于“最大化利润”，“最小化风险”、“找到最好的市场策略”……诸如此类的任务要求都已成为常态。虽然可从互联网上获取到海量数据，但这并没有简化知识工人的工作难度。针对具体任务搞懂所有相关数据的意义所在，这正成为基本的技能要求。

大量的经济活动都依赖于信息，我们不能在海量的数据中迷失，机器学习将有助于我们穿越数据雾霭，从中抽取出有用的信息。

1.2 关键术语

机器学习的主要任务就是分类。

最终我们决定使用某个机器学习算法进行分类，首先要做的就是算法训练，即学习如何分类。

训练集。通常我们为算法输入大量已分类数据作为算法的训练集。训练集是用于训练机器学习算法的数据样本集合。

注意，特征或者属性通常是训练样本集的列，它们是独立测量得到的结果，多个特征联系在一起共同组成一个训练样本。

为了测试机器学习算法的效果，通常使用两套独立的样本集：训练数据和测试数据。当机器学习程序开始运行时，使用训练样本集作为算法的输入，训练完成之后输入测试样本。输入测试样本时并不提供测试样本的目标变量，由程序决定样本属于哪个类别。比较测试样本预测的目标变量值与实际样本类别之间的差别，就可以得出算法的实际精确度。