山东大学Python（12）——机器学习基本知识

最新推荐文章于 2023-02-18 16:34:23 发布

ALTLI

最新推荐文章于 2023-02-18 16:34:23 发布

阅读量357

点赞数 1

分类专栏： Python 文章标签： Python 人工智能山东大学机器学习

本文链接：https://blog.csdn.net/weixin_43360801/article/details/103318146

版权

Python 专栏收录该内容

19 篇文章 23 订阅

订阅专栏

#%%
# 使用 jupyter notebook 编写
"""
本章知识目录：
    1.机器学习的基本概念
    2.有监督的学习方法
    3.无监督的学习方法
    4.机器学习的任务
    5.版本空间
    6.归纳偏好
    7.奥卡姆剃刀
    8.TRANSFER LEARNING（转移学习、迁移学习）
"""


#%%

"""
机器学习的基本概念：
    1.样本：数据集（记录的集合）
    2.属性：反应事件或对象在某方面的表现或特质的事项
    3.属性值：属性上的取值
    4.样本空间：所有属性组成的空间
    5.向量空间：把属性作为坐标轴，每个事件或对象都可以在空间中找到自己的坐标位置
    6.特征向量：样本空间中的每一个点对应一个坐标位置，
        每个事例或样本称为一个“特征向量”
    7.维数：属性的个数
    8.学习/训练：从数据中学得模型的过程，该过程通过执行某个算法来完成
    9.训练样本：训练过程中使用的数据中，每个样本称为训练样本
    10.训练集：训练样本组成的集合
    11.假设：学得模型对应了关于数据的某种潜在的规律，亦称假设
    12.真相：这种潜在规律自身，称为“真相”或“真实”，学习过程就是为了找出或逼近真相
    13.学习器：模型也称为学习器，可看作学习算法在给定数据或参数空间上的实例化
    14.标记信息：训练样本的结果信息，即关于结论的描述
    15.样例：拥有标记信息的实例，用(xi,yi)表示第i个样例，
        其中yi属于Y是实例xi的标记，Y是所有标记的集合，也称为标记空间或输出空间
    16.预测（对结论）：
        离散值：分类，如“好瓜”，“坏瓜”
            二分类
            多分类
        连续值：回归，如成熟度0,95,0.37
    17.测试：学得模型后，使用模型进行测试的过程
    18.测试样本：被预测的样本
    19.聚类：将训练集中的西瓜分成若干组，每组为一个簇cluster，
        这些自动形成的簇可能对应一些潜在的概念划分，
        如：浅色瓜，深色瓜，甚至本地瓜，外地瓜。
        聚类有助于我们了解数据内在规律，能为更深入的分析数据建立基础。
        聚类中划分形成的概念不是事先设定或知道的，
        而且学习过程中使用的训练样本通常不用于标记信息
        （分类：有监督学习；聚类：无监督学习）

有监督的学习方法：
    在样本标签已知的情况下，可以统计出各类训练样本不同的描述量，
    如其概率分布，或在特征空间分布的区域等，利用这些参数进行分类器设计，
    称为有监督的学习方法。

无监督的学习方法：
    在实际应用中，不少情况下无法预先知道样本的标签，也就是说没有训练样本
    因而只能从原先没有样本标签的样本集开始进行分类器设计，
    这就是通常说的无监督学习方法。

机器学习的任务：
    1.令W是这个给定世界的有限或无限所有对象的集合，由于观察能力的限制，
        我们只能获得这个世界的一个有限的子集Q⊂W，称为样本集。
    2.机器学习就是根据这个有限样本集Q ，推算这个世界的模型，使得其对这个世界为真。
    3.目标：使学得的模型能很好适用于“新样本”，而不仅仅在训练样本上工作的很好
    4.泛化：学得模型适用于新样本的能力
    5.学习过程可看作一个在所有假设组成的空间中进行搜索的过程，
    目标是找到与训练集“匹配”的假设
    6.建立问题假设空间，搜索过程中不断删除与正例不一致的假设，
        和（或）与反例一致的假设，最终获得与训练集一致
        （即对所有训练样本能够进行正确判断）的假设

版本空间：
    1.现实问题中的假设空间很大
    2.学习过程是基于有限样本训练集进行的，可能有多个假设与训练集一致，
        即存在一个与训练集一致的“假设集合”（有多个假设），我们称之为版本空间

归纳偏好：
    1.版本空间中有多个假设，当与之对应的模型在面临新样本时，会产生不同的输出
    2.对于一个具体的学习算法而言，必须产生一个模型，其“偏好”就会起到关键作用
    3.归纳偏好/偏好：机器学习算法在学习过程中对某种类型假设的偏好
    4.机器学习算法必须有偏好，否则判定结果不确定

奥卡姆剃刀：
    1.归纳偏好可以看做学习算法自身在一个可能很庞大的假设空间中对假设
        进行选择的启发式或价值观
    2.奥卡姆剃刀：是一种基本原则，用于引导算法确立“正确的”偏好
    3.若有多个假设与观察一种，选择最简单的那个
    4.脱离具体问题，空泛地谈论“什么算法更好”毫无意义，因为若考虑所有潜在问题，
        则所有学习算法都一样好。
    5.要谈论算法的相对优劣，必须要针对具体的学习问题

TRANSFER LEARNING（转移学习、迁移学习）：
    1.Transfer learning 这一概念是由 DARPA（美国国防高级研究计划局）
        在2005年正式提出来的一项研究计划。
    2.Transfer Learning 是指系统能够将在先前任务中学到的知识或技能
        应用于一个新的任务或新的领域。
    3.我们人类也具有这样的能力，比如我们学会了国际象棋，
        就可以将下棋的方法应用于跳棋，或者说学起跳棋来会更容易一些；
        学会了C++，可以把它的一些思想用在学习Java中；
        再比如某人原来是学物理的，后来学习计算机时，
        总习惯把物理中的某些思想和概念用于计算机科学中。
    4.用我们通俗的话总结，就是
            传统机器学习 = “种瓜得瓜，种豆得豆”
            迁移学习 = “举一反三”
"""