笔记(一)机器学习(周志华)第1章 绪论 (假设空间、版本空间)

1. 引言

1) 定义

机器学习是一门致力于研究如何通过计算的手段,利用经验(数据)来改善系统自身的性能的学科。

2) 研究的主要内容

在计算机上,从数据中产生“模型”的算法,即“学习算法”。

3) 如何运用

有了学习算法,把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时,模型会给出相应的判断。

2. 基本术语

  1. 数据集:所有记录的集合
  2. 示例/样本:每条记录。有时整个数据集也会看成是一个样本
  3. 属性/特征:反映事件或对象在某方面的表现或性质的事项。例如色泽、根蒂、敲声是西瓜的属性。
  4. 属性值:属性上的取值。不同对象的属性会有不同的取值。
  5. 属性空间/样本空间/输入空间:属性张成的空间。eg:色泽、根蒂、敲声作为三个坐标轴,就可以张成一个描述西瓜的3维空间,就是属性空间。
  6. 特征向量:每个样本都可以用空间中的一个点表示,空间中的每个点对应一个坐标向量,所以也把一个样本称为一个特征向量。
  7. 维数:数据集中每个样本所具有的特征(属性)数目。
  8. 学习/训练:从数据中学得模型的过程。
  9. 训练数据:训练过程中使用的数据。
  10. 训练样本/训练示例:训练过程中使用的每个样本。
  11. 训练集:训练样本组成的集合。
  12. 假设:学的模型对应了关于数据的某种潜在的规律。
  13. 真相/真实:这种潜在规律
  14. 学习器:有时将“模型”成为“学习器”。可以看作学习算法在给定数据和参数空间上的实例化。
  15. 标记(label):对象的类别或者事件的结果。eg:好瓜、坏瓜。
  16. 样例:拥有了标记信息的示例(样本和标记组合起来就是样例)。若将标记看作对象本身的一部分,则样例有时也称为样本。
  17. 标记空间/输出空间:所有标记的集合。
  18. 分类:预测值是离散值。eg:好瓜、坏瓜
  19. 回归:预测值是连续值。eg:西瓜的成熟度0.95、0.37。
  20. 聚类:基于某种度量将样本分为若干个簇(cluster),使得同一簇内尽量相似,不同簇间尽量相异。学习过程中使用的训练样本通常不拥有标记信息。
  21. 测试:训练完成得到模型后,使用其进行预测的过程。
  22. 测试样本:被预测的样本。
  23. 根据训练数据是否拥有标记信息,学习任务可大致分为两类:
    A. 监督学习:需要标记。eg:分类和回归。
    B. 无监督学习:不需要标记。eg:聚类。
  24. 泛化能力:学的模型适应新样本的能力。
  25. 机器学习目的:使学的模型能更好的适用于“新样本”,不仅仅是在训练样本上表现的好。

3. 假设空间

1) 归纳和演绎

归纳:从特殊到一般的“泛化”过程。从具体事实归结出一般性规律。 “从样例中学习”亦称“归纳学习”
演绎:从一般到特殊的“特化”过程。

2) 假设空间:所有假设的集合。

3) 版本空间

与训练集匹配的假设空间子集。学习过程中,可以不断删除与正例不一致的假设、和(或)与反例一致的假设。最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,即学得结果。

4) 假设空间规模大小

假设空间:(色泽= ?)∧(根蒂=?)∧(敲声=?)这3个属性的取值均为3
假设空间大小:(3+1)x(3+1)x(3+1)+1=65。括号里的1是除3个属性值外,无论取什么值都合适,用通配符*表示,所以加1;最后的1是没有好瓜的情况。

4. 归纳偏好

1) 定义

在学习过程中对某种类型假设的偏好,简称“偏好”。在多个假设等效时,学习算法会认为某一种假设更优。例如根蒂还是敲声对好瓜的判断更重要,看起来和属性选择,也就是“特征选择”有关。注意:特征选择仍是基于对训练样本的分析进行的。

2) 奥卡姆剃刀:若多个假设与观察一致,则选最简单的那个。

问题:判断哪个假设更简单是不简单的。

3) 没有免费的午餐(NFT)

无论哪种算法,他们的期望性能都相同,就是总误差与学习算法无关。但实际中,我们只考虑正类分布而不考虑负类分布。
前提:所有“问题”出现的机会相同、或所有问题同等重要。
但实际情况不是这样,只关注自己正在试图解决的问题(特定任务)有个好的方案,不考虑此方案对其他问题好不好。



记录自己的学习过程,方便日后查阅,如有不对的地方还请指教!如果你喜欢欢迎点赞、评论\(^o^)/~
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
很高兴听到你正在学习《机器学习》这本经典的教材,下面我为你提供第十四概率图模型的Python实现学习笔记。 ## 1. 朴素贝叶斯分类器 ### 1.1 数据准备 在本中,我们将使用著名的鸢尾花数据集进行分类。首先,我们可以从sklearn库中导入该数据集。 ```python from sklearn.datasets import load_iris iris = load_iris() X = iris.data y = iris.target ``` ### 1.2 朴素贝叶斯分类器实现 接下来,我们可以使用sklearn库中的朴素贝叶斯分类器进行分类,具体实现如下: ```python from sklearn.naive_bayes import GaussianNB from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42) gnb = GaussianNB() gnb.fit(X_train, y_train) y_pred = gnb.predict(X_test) accuracy = accuracy_score(y_test, y_pred) print('Accuracy:', accuracy) ``` ### 1.3 结果分析 运行上述代码后,我们可以得到该模型在测试集上的准确率,结果如下所示: ``` Accuracy: 1.0 ``` 可以看出,该模型在鸢尾花数据集上表现出色,准确率达到了100%。 ## 2. 隐马尔可夫模型 ### 2.1 数据准备 在本节中,我们将使用一个简单的例子来介绍隐马尔可夫模型的实现。假设我们有一个长度为100的序列,每个位置上的值都是0或1,其中0和1出现的概率分别为0.6和0.4。我们可以使用numpy库生成这个序列。 ```python import numpy as np np.random.seed(42) sequence = np.random.choice([0, 1], size=100, p=[0.6, 0.4]) ``` ### 2.2 隐马尔可夫模型实现 接下来,我们可以使用hmmlearn库中的隐马尔可夫模型进行序列建模,具体实现如下: ```python from hmmlearn import hmm model = hmm.MultinomialHMM(n_components=2) model.fit(sequence.reshape(-1, 1)) logprob, states = model.decode(sequence.reshape(-1, 1)) print('Sequence:', sequence) print('States:', states) ``` ### 2.3 结果分析 运行上述代码后,我们可以得到该模型对序列的建模结果,结果如下所示: ``` Sequence: [0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0] States: [1 1 1 1 1 1 1 1 1 1 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1] ``` 可以看出,模型对序列进行了建模,并输出了每个位置上的状态,其中0表示“假”,1表示“真”。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值