西瓜书学习之绪论部分

最新推荐文章于 2021-10-19 20:59:27 发布

深色瞳孔

最新推荐文章于 2021-10-19 20:59:27 发布

阅读量269

点赞数

分类专栏：西瓜书文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_42701437/article/details/109487440

版权

西瓜书专栏收录该内容

1 篇文章 0 订阅

订阅专栏

1.1引言不用介绍了！
1.2基本术语
①数据集（data set）：记录的集合；
②示例（instance）or 样本（sample）：每条记录关于一个事件或对象的描述；
③属性（attribute）or 特征（feature）：事件或对象在某方面的表现或性质的事件；
④属性值（attribute value）：属性上的取值；
⑤属性空间（attribute space）样本空间（sample space） or 输入空间（input space）：属性张成的空间；
⑥特征向量（feature vector）：空间中每个点对应一个坐标向量；
⑦维数（dimensionality）：样本空间中取值的个数；
⑧学习（learning） or 训练（training）：从数据中学的模型的过程；
⑨训练数据（training data）：训练过程中使用的数据；
⑩训练样本（training sample）：训练使用的样本；
11，训练集（training set）：训练样本组成的集合；
12，假设（hypothesis）：学得模型对应了关于数据某种潜在的规律；
13，真相 or真实（ground-truth）：潜在规律本身；
14，学习器（learner）：学习算法在给定数据和参数空间上的实例化；
15，预测（production）：对未知结果的推测；
16，标记（label）：样本的“结果”信息；
17，样例（example）：拥有了标记信息的示例；
18，标记空间（label space） or 输出空间（output space）：所有标记的集合；
19，分类（classification）：预测值为离散值；
20，回归（regress）：欲预测值是连续值；
21，二分类（binary classification）：涉及两个类别的任务；
22，正类（positive class） and 反类（negative class）：二分类的两个类别；
23，多分类（multi-class classification）：涉及多个类别的任务；
24，测试（testing）：学得模型后，使用其预测的过程；
25，测试样本（testing sample）：被测试的样本；
26，聚类（clustering）：训练集中的样本分类；
27，簇（cluster）：每组称为一个簇；
28，监督学习（supervised learning）：分类与回归是其代表；
29，无监督学习（unsupervised learning）：聚类是其代表；
30，泛化（generalization）：学得模型适用于新样本的能力；
31，分布（distribution）：样本空间中的全体样本服从的规律；
32，独立同分布（independent and identically distributed 简称 i.i.d.）：每个样本都是独立从这个分布上采样获得的；
1.3假设空间
归纳（induction）与演绎（deduction）科学演绎的两大基本手段

归纳是特殊到一般的泛化（generalization）过程
演绎则是一般到特殊的特化（specialization）过程

奥卡姆剃刀（Occaam’s razor）若有多个假设与观察一致，则选最简单的那个

但是最简单的评判标准是怎样的这个有待商榷！
不要惧怕数学，数学恐怖并不可怕！！

没有免费的午餐（No Free Lunch Theorem简称 NFL定理）
就是这个理论可能在情况A下好用，在情况B不好用；
其他理论在情况A不好用，在情况B好用。
西瓜书原文：在这里插入图片描述但是NFL定理有个重要的前提：所有的“问题”出现的机会相同、或者所有的问题同样重要

所以NFL定理讲明了要谈论算法的优劣必须要结合针对具体的学习问题

1.5发展历程
人工智能（artificial intelligence）的衍生物
前期的“逻辑理论家”各种推理演算，后来想到机器自己能够学习就好了！
五十年代中期 A.Samuel提出基于神经网络的“连接主义”（connectionism），其中代表工作有F.Rosenblatt 的感知机（Perceptron）、B.Widrow的Adaline；
六七十年代，基于逻辑表示的“符号主义”（symbolism），代表工作有P.Winston的“结构学习系统”、R.S.Michalski的“基于逻辑的逻辑学习系统”、E.B.Hunt的“概念学习系统”；以决策理论为基础的学习技术得到发展，代表工作有N.J.Nilson的“学习机器”，为之后统计理论学习打了基础；
1980年夏巴拉巴拉各种开会
机器学习分类：①“机械学习”；②“示教学习”；③“类比学习”；④“归纳学习”
“机械学习”=“死记硬背式学习”仅仅实现了信息的存储和检索，没有真正的学习；
示教学习和类比学习类似于“从指令中学习”和“通过观察和发现学习”；
归纳学习相当于“从样例中学习”涵盖了监督学习和无监督学习，本次学习大部分为此学习方法！

在二十世纪八十年代，“从示例中学习”的一大主流是符号主义学习，其代表包括决策树（decision tree）和基于逻辑的学习，典型的决策树以信息论为基础，以信息熵的最小化为目标，直接模拟了人类对概念进行判定的树形过程，
二十世纪九十年代中期前，“从样例中学习”的另一主流技术是基于神经网络的连接主义学习，然而连接主义最大的局限性在于“试错性”，主要依靠手工调参，对于学习结果的影响可能很大，可谓“差之毫厘谬以千里”
二十世纪九十年代中期，“统计学习”（statistics learning）闪亮登场，代表技术为支持向量机（Support Vector Machine 简称SVM）以及更一般的“核方法”（kernel methods）

到了二十世纪初期，连接主义卷土重来，掀起了以“深度学习”为名的热潮
何谓深度学习
所谓深度学习，狭义地说就是“很多层”的神经网络
现如今随着计算能力的提升、数据的扩大，深度学习模型拥有大量的参数，若样本数据过少，容易出现过拟合

1.6应用现状
机器学习的迅猛发展是其契合了现如今，人类从各个角落收集了大量数据，机器学习刚好可以对其进行分析计算

2006年大数据时代的三个关键技术：机器学习、云计算、众包（crowdsourcing）

数据挖掘（data mining）统计学通过机器学习对数据挖掘产生影响

自动驾驶便是机器学习的应用之一
1.7阅读材料
各种重要的国际会议。。。。。

习题
1.1
1.1 求版本空间

题目：表1.1中若只包含编号为1和4的两个样例，试给出相应的版本空间。
P5：与训练集一致的“假设集合”我们称之为版本空间。本题即在假设空间中搜索包含正例且不包含反例的所有假设。（详细说明见后思考）
首先，用一个六位二进制数将整个假设空间表示出来，每两位描述一个属性。前两位取01表示色泽的取值为“青绿”，10表示色泽取值为“乌黑”，11表示色泽取值为 。后四位分别表示根蒂与敲声的取值，以此类推.注意题中只包含1和4两个样例，因此假设空间中色泽的取值范围为： ，乌黑、青绿；根蒂的取值范围为：，蜷缩、稍蜷；敲声的取值范围为：，浊响、沉闷。

假设空间
序号色泽根蒂敲声二进制表示
1 * * * 111111
2 * * 浊响 111101
3 * * 沉闷 111110
4 * 蜷缩 * 110111
5 * 稍蜷 * 111011
6 青绿 * * 011111
7 乌黑 * * 101111
8 * 蜷缩浊响 110101
9 * 蜷缩沉闷 110110
10 * 稍蜷浊响 111001
11 * 稍蜷沉闷 111010
12 青绿 * 浊响 011101
13 青绿 * 沉闷 011110
14 乌黑 * 浊响 101101
15 乌黑 * 沉闷 101110
16 青绿蜷缩 * 010111
17 青绿稍蜷 * 011011
18 乌黑蜷缩 * 100111
19 乌黑稍蜷 * 101011
20 青绿蜷缩浊响 010101
21 青绿蜷缩沉闷 010110
22 青绿稍蜷浊响 011001
23 青绿稍蜷沉闷 011010
24 乌黑蜷缩浊响 100101
25 乌黑蜷缩沉闷 100110
26 乌黑稍蜷浊响 101001
27 乌黑稍蜷沉闷 101010

若两个假设的二进制表示分别为A和B，则 A | BA ⇒ B⊂A，A&BB ⇒ B⊂A.（任意一个等式都可以判断出假设A是否包含假设B）
设P为假设1（正例），N为假设4（反例），假设H只要满足H | P==H && H | N != H为真，那么假设H就应该被包含在版本空间内。遍历假设空间内的所有假设进行上述判断，就可以获得版本空间内的所有假设。

#include<stdio.h>

int hypo_const[27] = {0x3f,0x3d,0x3e,0x37,0x3b,0x1f,0x2f,0x35,0x36,0x39,0x3a,0x1d,0x1e,0x2d,0x2e,
                      0x17,0x1b,0x27,0x2b,0x15,0x16,0x19,0x1a,0x25,0x26,0x29,0x2a};

void main()
{

    int sample[2] = {0x15,0x2a},sum=0;
    for(int i=0;i<27;i++)
    {
        if( (hypo_const[i] | sample[1] ) != hypo_const[i] && (hypo_const[i] | sample[0]) == hypo_const[i] )  
        {
            sum++;
            printf("%x  %d\n",hypo_const[i],i+1);
        }
    }
    printf("\nsum:%d\n\n",sum);
}

求得版本空间为假设2、4、6、8、12、16、20.

版本空间
序号色泽根蒂敲声二进制表示
2 * * 浊响 111101
4 * 蜷缩 * 110111
6 青绿 * * 011111
8 * 蜷缩浊响 110101
12 青绿 * 浊响 011101
16 青绿蜷缩 * 010111
20 青绿蜷缩浊响 010101

思考：书中P5提到，版本空间的求法为遍历假设空间，不断删除与正例不一致的假设和（或）与反例一致的假设。按照我的理解，版本空间有以下3种不同的求法。

删除不能包含所有正例以及包含任意反例的假设
删除不能包含所有正例的假设
删除包含任意反例的假设

本题使用了第一种方法来求版本空间，三种求法的选择应该属于归纳偏好的范畴。

1.2

1.3拾人牙慧
题目：若数据包含噪声，则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下，设计一种归纳偏好用于假设选择。
分析：既然数据中包含噪声，最直接的思路就是首先去除噪声。去噪方法：若存在两个样例属性取值都相同，标记却不同，则只保留标记为正例的样例（或标记为反例的样例，也可以考虑更加复杂的筛选方法，比如统计相似样例的标记），在此基础上求出版本空间。
也可以考虑其他方法：
1.在求版本空间时，只除去与反例不一致的假设。
2.求版本空间时，只留下包含了所有正例的假设。
1.4
“没有免费的午餐定理”拓展证明

题目：本章1.4节在论述“没有免费的午餐”定理时，默认使用了“分类错误率”作为性能度量来对分类器进行评估。若换用其他性能度量l，则式（1.1）将改为
试证明“没有免费的午餐定理”仍成立。
证明：
在证明定理之前，先构造一个引理：
引理1：在二分类问题下，对任意性能度量指标
证毕.
现在证明定理：
在这里插入图片描述

NFL定力证明
上式说明度量结果与学习算法εa无关，“没有免费的午餐定理”仍然成立。
证明完毕。
关于证明的补充说明：本文的引理没有考虑第二章2.3节中的代价敏感错误。若本题中考虑代价敏感错误，则各种不同代价错误出现的概率也是满足平均分布的，引理1仍然成立，但是证明过程会更加复杂。
思考： NFL定理证明过程中假设了f均匀分布，并且目标是学习所有的真实函数f。现实生活中，具体的学习算法无需学习所有的真实函数，因为所有真实函数在现实中的映射即天底下所有问题都可以用相同的这一组特征来描述，这是不现实的。若用同一组特征来描述所有问题，那么分类结果必将杂乱无章没有任何规律可言，这也是书中假设f满足均匀分布的原因。真实情况下，也许没有任何一种分布能够描述其特征。因此NFL并不意味着好的学习算法没有意义。
1.5机器学习在互联网搜索过程例如：模糊识别；类似结果推荐；借鉴答案“有问必答，准、快、全、好”方面还做的不是很好！

深色瞳孔

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
西瓜书学习之绪论部分

1.1引言不用介绍了！1.2基本术语①数据集（data set）：记录的集合；②示例（instance）or 样本（sample）：每条记录关于一个事件或对象的描述；③属性（attribute）or 特征（feature）：事件或对象在某方面的表现或性质的事件；④属性值（attribute value）：属性上的取值；⑤属性空间（attribute space）样本空间（sample space） or 输入空间（input space）：属性张成的空间；⑥特征向量（feature vect
复制链接

扫一扫

专栏目录