机器学习(周志华版)第一章笔记

Introduction

1、define

(1)机器学习是这样一个领域,它赋予计算机学习的能力,(这种学习能力)不是通过显著式编程获得的。

注:显著式编程是需要人为地根据周围的环境、规则、经验等给计算机规定一些机械化步骤或判断依据,例如识别菊花和玫瑰,显著式编程就需要人为规定黄色的是菊花,红色的是玫瑰。而非显著式编程无需人为给出所有的步骤和约束计算机必须总结什么规律,只需要定义收益函数,计算机会通过与环境的互动总结经验、调整策略,从而实现最大化收益(最优策略)。因此,非显著编程更加灵活,适用范围更广。

(2)一个计算机程序被称为可以学习,是指她能够针对某个任务T和某个性能指标P,从经验E中学习。这种学习的特点是,它在T上的被P所衡量的性能,会随着经验E的增加而提高。

注:还是以识别菊花和玫瑰为例,任务T指的是编写一个计算机程序来识别菊花和玫瑰、经验E指的是海量的菊花和玫瑰的图片(称之为“训练样本”)、性能指标P指的是识别率(识别结果的正确率),这种算法的特点就是随着图片(经验/训练样本)的增加,识别率(性能指标)也会越来越高。(泛化)

2、category

(1)监督学习(Supervised Learning):所有的经验都是人为搜集起来并输入计算机的,最终为训练数据打上标签或者进行预测。例如识别垃圾邮件、人脸识别、图像识别、天气预测、污染物浓度预测等。

注1:若我们欲预测的是离散值,例如“垃圾邮件”和“正常邮件”,此类学习任务称为“分类”;若欲预测的是连续值,例如污染物浓度1.5%,4.8%,此类学习任务称为“回归”

注2:传统的监督学习包括支持向量机SVM(Support Vector Machine)、人工神经网络、深度神经网络DNN(Deep Neutral Network)

(2)无监督学习(Unsupervised Learning):只有特征,但是没有标签,即给定数据,‘寻找隐藏/潜在的结构和信息,进行分类。例如聚类、社交网络分析、群体分类。

注:无监督学习算法包括聚类、EM算法、主成分分析

(3)半监督学习(Semi-supervised Learning):由于标注数据是成本巨大的工程,因此,利用少量标注的数据和大量未标注的数据一起训练出一个更好的机器学习方法,即半监督学习算法,是一种趋势。

(4)强化学习(Reinforcement Learning):计算机通过与环境的互动,逐渐强化自己的行为模式,从而实现最大化收益的学习过程称为强化学习。

3、term/concept

(1)归纳学习:归纳学习是符号学习中研究的最为广泛的学习。给定关于某个概念的一系列已知的正例和反例,其任务是从中归纳出一个一般的概念描述。其中狭义的归纳学习要求从训练数据中学得概念,因此亦称为“概念学习”。

(2)假设空间:我们可以把学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设,即能够将训练集所有数据判断正确的假设。

(3)版本空间:由于假设空间可能很大,我们把与训练集匹配的假设(可能有多个)组合成一个集合,这样的一个集合我们称之为“版本空间”。

(4)归纳偏好:对于版本空间中不同的假设,在面临测试样本可能会有不同的输出,此时如果不规定一个偏好(选择),则针对同一个数据可能会有不同的输出,这种学习结果显然没有意义。

注:“奥卡姆剃刀”指的是归纳偏好选取相对最简单的那个(但是哪一个假设最简单并没有一个通用的标准)

4、process

(1)特征提取(Feature Extraction):通过训练样本获得对机器学习任务有帮助的多维度数据。

(2)特征选择(Feature Selection):从若干个特征中选取对机器学习任务帮助显著的特征,即有效特征。

(3)基于特征构造算法:若选取了N个特征构成N维的特征空间,则机器学习算法需要做的就是要把特征空间中进行划分,尽可能将不同特征的样本数据区分开。

注1:不同的算法对特征空间的划分是不同的,从而产生的结果也不同。因此,如何在不同的应用场景选取或构造合适的机器学习算法是机器学习领域的一个重要的课题。

注2:在设计机器学习算法的时候,有一个假设:在特征空间上距离较近的样本,它们属于同一个类别的概率会更高。

5、theory-“没有免费的午餐”

        任何一个预测函数,如果在一些训练样本上表现好,那么必然在一些训练样本上表现不好。也就是说,如果不对数据在特征空间的先验分布有一定的假设,那么表现好和表现不好的概率一样多(所有算法的表现都一样)

6、conclusion

机器学习的本质通过有限的已知样本数据,在复杂的高维特征空间中预测未知样本的属性和类别


 

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
很高兴听到你正在学习《机器学习》这本经典的教材,下面我为你提供第十四章概率图模型的Python实现学习笔记。 ## 1. 朴素贝叶斯分类器 ### 1.1 数据准备 在本章中,我们将使用著名的鸢尾花数据集进行分类。首先,我们可以从sklearn库中导入该数据集。 ```python from sklearn.datasets import load_iris iris = load_iris() X = iris.data y = iris.target ``` ### 1.2 朴素贝叶斯分类器实现 接下来,我们可以使用sklearn库中的朴素贝叶斯分类器进行分类,具体实现如下: ```python from sklearn.naive_bayes import GaussianNB from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) gnb = GaussianNB() gnb.fit(X_train, y_train) y_pred = gnb.predict(X_test) accuracy = accuracy_score(y_test, y_pred) print('Accuracy:', accuracy) ``` ### 1.3 结果分析 运行上述代码后,我们可以得到该模型在测试集上的准确率,结果如下所示: ``` Accuracy: 1.0 ``` 可以看出,该模型在鸢尾花数据集上表现出色,准确率达到了100%。 ## 2. 隐马尔可夫模型 ### 2.1 数据准备 在本节中,我们将使用一个简单的例子来介绍隐马尔可夫模型的实现。假设我们有一个长度为100的序列,每个位置上的值都是0或1,其中0和1出现的概率分别为0.6和0.4。我们可以使用numpy库生成这个序列。 ```python import numpy as np np.random.seed(42) sequence = np.random.choice([0, 1], size=100, p=[0.6, 0.4]) ``` ### 2.2 隐马尔可夫模型实现 接下来,我们可以使用hmmlearn库中的隐马尔可夫模型进行序列建模,具体实现如下: ```python from hmmlearn import hmm model = hmm.MultinomialHMM(n_components=2) model.fit(sequence.reshape(-1, 1)) logprob, states = model.decode(sequence.reshape(-1, 1)) print('Sequence:', sequence) print('States:', states) ``` ### 2.3 结果分析 运行上述代码后,我们可以得到该模型对序列的建模结果,结果如下所示: ``` Sequence: [0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0] States: [1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1] ``` 可以看出,模型对序列进行了建模,并输出了每个位置上的状态,其中0表示“假”,1表示“真”。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值