初探机器学习

最新推荐文章于 2024-07-29 13:56:38 发布

置顶 wa卡卡

最新推荐文章于 2024-07-29 13:56:38 发布

阅读量216

点赞数 1

分类专栏： AI 文章标签：大框架

本文链接：https://blog.csdn.net/weixin_42957999/article/details/83089691

版权

AI 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

一、AI、ML、DL三者的关系
三者是包含与被包含的关系
人工智能AI：让计算机像人一样思考
机器学习（ML）：提升计算机模拟人类思考能力的方法
深度学习（DL）：通过神经网络方式进行机器学习的方法
二、机器学习的大致流程
特征提取
数据预处理
训练模型
测试模型
模型评估、改进
三、机器学习算法
3.1 回归
3.1.1线性回归 ——找到一条直线来预测目标值
原理：回归是指确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法，通过建立一个回归方程（函数）来估计特征值对应的目标变量的可能取值。最常见的是线性回归（Y= a X + b），即找到一条直线来预测目标值。回归的求解就是求解回归方程的回归系数（a，b）的过程，并且使误差最小。房价场景中，根据房屋面积和售价的关系，求出回归方程，则可以预测
常用于：房价预测、预测客户终身价值等

3.2 分类
3.2.1 逻辑回归 ——找到一条直线来分类数据

原理：逻辑回归虽然名字叫回归，却是属于分类算法，是通过Sigmoid函数将线性函数的结果映射到Sigmoid函数中，预估事件出现的概率并分类。
Sigmoid是归一化的函数，可以把连续数值转化为0到1的范围，提供了一种将连续型的数据离散化为离散型数据的方法。
因此，逻辑回归从直观上来说是画出了一条分类线。位于分类线一侧的数据，概率>0.5,属于分类A；位于分类线另一侧的数据，概率<0.5,属于分类B。

常用于：计算患肿瘤的概率

3.2.2 K-近邻——用距离度量最相邻的分类标签
原理：计算样本数据中的点与当前点之间的距离
算法提取样本最相似数据(最近邻)的分类标签
确定前k个点所在类别的出现频率. 一般只选择样本数据集中前k个最相似的数据，这就是k-近邻算法中k的出处，通常k是不大于20的整数
返回前k个点所出现频率最高的类别作为当前点的预测分类

使用K近邻算法的进行识别的具体步骤为：

首先将每个图片处理为具有相同的色彩和大小：宽高是32像素x32像素。
将3232的二进制图像矩阵转换成11024的测试向量。
将训练样本储存在训练矩阵中，创建一个m行1024列的训练矩阵，矩阵的每行数据存储一个图像。
计算目标样本与训练样本的距离，选择前k个点所出现频率最高的数字作为当前手写字体的预测分类。

常用于：手写数字识别

3.2.3 朴素贝叶斯——选择后验概率最大的类为分类标签
原理：一个简单的场景：一号碗(C1)有30颗水果糖和10颗巧克力糖，二号碗(C2)有水果糖和巧克力糖各20颗。现在随机选择一个碗，从中摸出一颗糖，发现是水果糖。

问这颗水果糖(X)最有可能来自哪个碗？这类问题可以借助贝叶斯公式来计算，不需要针对目标变量建立模型。在分类时，通过计算样本属于各个类别的概率，然后取概率值大的类别作为分类类别。

P(X|C): 条件概率，C中X出现的概率
P©: 先验概率，C出现的概率
P(C|X): 后验概率，X属于C类的概率

例如上面的例子中： P(X): 水果糖的概率为5/8
P(X|C1): 一号碗中水果糖的概率为3/4
P(X|C2): 二号碗中水果糖的概率为2/4
P(C1)=P(C2): 两个碗被选中的概率相同，为1/2

则水果糖来自一号碗的概率为:
$P(C1|X)=P(X|C1)P(C1)/P(X)=(3/4)(1/2)/(5/8)=3/5
水果糖来自二号碗的概率为:
P(C2|X)=P(X|C2)P(C2)/P(X)=(2/4)(1/2)/(5/8)=2/5
P(C1|X)＞P(C2|X)
因此这颗糖最有可能来自一号碗。

常用于：文本分类、垃圾文本过滤、情感判别

3.2.4 决策树——创造一颗熵值下降最快的分类树
原理：决策树是一种树型结构，其中每个内部结点表示在一个属性上的测试，每个分支代表一个测试输出，每个叶结点代表一种类别。采用的是自顶向下的递归方法，选择信息增益最大的特征作为当前的分裂特征。
｛熵：度量随机变量的不确定性。（纯度）熵越大，样本的不确定性就越大。因此可以使用划分前后集合熵的差值来衡量使用当前特征对于样本集合D划分效果的好坏。划分前样本集合D的熵是一定的，entroy(前)，
使用某个特征A划分数据集D，计算划分后的数据子集的熵 entroy(后)
信息增益 = entroy(前) - entroy(后)
书中公式: $g (D, A) = H (D) - H (D ∣ A)$

做法：计算使用所有特征划分数据集D，得到多个特征划分数据集D的信息增益，从这些信息增益中选择最大的，因而当前结点的划分特征便是使信息增益最大的划分所使用的特征。｝
常用于：用户分级评估、贷款风险评估、选股、投标决策等

3.2.5 支持向量机（SVM)——创造超平面，分类非线性数据
支持向量机的的两个问题：

当一个分类问题，数据是线性可分时，只要将线的位置放在让小球距离线的距离最大化的位置即可，寻找这个最大间隔的过程，就叫做最优化。
一般的数据是线性不可分的，可以通过核函数，将数据从二维映射到高位，通过超平面将数据切分。
不同方向的最优决策面的分类间隔通常是不同的，那个具有“最大间隔”的决策面就是SVM要寻找的最优解。这个真正的最优解对应的两侧虚线所穿过的样本点，就是SVM中的支持样本点，称为支持向量。

SVM的应用非常广泛，可以应用于垃圾邮件识别、手写识别、文本分类、选股等。
3.3聚类
3.3.1 K-means——计算质心，聚类无标签数据
原理：在上面介绍的分类算法中，需要被分类的数据集已经有标记，例如数据集已经标记为○或者×，通过学习出假设函数对这两类数据进行划分。而对于没有标记的数据集，希望能有一种算法能够自动的将相同元素分为紧密关系的子集或簇，这就是聚类算法。

其基本步骤为：

随机生成k个初始点作为质心；
将数据集中的数据按照距离质心的远近分到各个簇中；
将各个簇中的数据求平均值，作为新的质心，重复上一步，直到所有的簇不再改变。两个分类间隔越远，则聚类效果越好。
常用于：K-means算法的一个案例是客户价值细分，精准投资。识别客户价值，通过五个指标：最近消费时间间隔R，消费频率F，飞行里程 M和折扣系数的平均值C，客户关系长度L（LRFMC模型）。采用K-Means算法对客户数据进行客户分群，聚成五类（需结合业务的理解与分析来确定客户的类别数量）绘制客户群特征雷达图。
｛客户价值分析：

重要保持客户：C、F、M较高，R低。应将资源优先投放到这类客户身上，进行差异化管理，提高客户的忠诚度和满意度。
重要发展客户：C较高，R、F、M较低。这类客户入会时长（L）短、当前价值低、发展潜力大，应促使客户增加在本公司和合作伙伴处的消费。
重要挽留客户：C、F 或 M 较高，R较高或 L变小，客户价值变化的不确定性高。应掌握客户最新信息、维持与客户的互动。
一般和低价值客户：C、F、M、L低、R较高。这类客户可能在打折促销时才会选择消费。

K-means算法的一个比较有趣的案例是进行图像压缩。在彩色图像中，每个像素的大小为3字节（RGB），可以表示的颜色总数为256 256 256。利用K-means算法把类似的颜色分别放在K个簇中，因此只需要保留每个像素的标签，以及每个簇的颜色编码即可完成图像的压缩。｝
3.4关联分析
3.4.1 挖掘啤酒与尿布（频繁项集）的关联规则
啤酒+尿布”故事中利用的就是关联算法，比较常见的一种关联算法是FP-growth算法。

算法中几个相关的概念：

频繁项集：在数据库中大量频繁出现的数据集合。例如购物单数据中{‘啤酒’}、{‘尿布’}、{‘啤酒’, ‘尿布’}出现的次数都比较多。
关联规则：由集合 A，可以在某置信度下推出集合 B。即如果 A 发生了，那么 B 也很有可能会发生。例如购买了{‘尿布’}的人很可能会购买{‘啤酒’}。
支持度：指某频繁项集在整个数据集中的比例。假设数据集有 10 条记录，包含{‘啤酒’, ‘尿布’}的有 5 条记录，那么{‘啤酒’, ‘尿布’}的支持度就是 5/10 = 0.5。
置信度：有关联规则如{‘尿布’} -> {‘啤酒’}，它的置信度为 {‘尿布’} -> {‘啤酒’}
假设{‘尿布’, ‘啤酒’}的支持度为 0.45，{‘尿布’}的支持度为 0.5，则{‘尿布’} -> {‘啤酒’}的置信度为 0.45 / 0.5 = 0.9。

应用比较广泛，例如：用于制定营销策略。如同啤酒与尿布的例子，超市如果将啤酒和尿布放在相邻的位置，会增加两者的销量。用于发现共现词。在浏览器中输入"普元"时，浏览器自动弹出如"普元平台"，"普元EOS"等备选记录。 FP-growth算法一个简单的案例：通过购物车数据，分析商品之间的关联关系。
｛置信度：在统计学中，一个概率样本的置信区间（Confidence interval）是对这个样本的某个总体参数的区间估计。置信区间展现的是这个参数的真实值有一定概率落在测量结果的周围的程度。置信区间给出的是被测量参数的测量值的可信程度，即前面所要求的“一定概率”。这个概率被称为置信水平。
参考https://baijiahao.baidu.com/s?id=1596169784713150436&wfr=spider&for=pc置信度和置信区间｝
3.5降维
3.5.1 PCA降维——减少数据维度，降低数据复杂度
原理：降维是指将原高维空间中的数据点映射到低维度的空间中。因为高维特征的数目巨大，距离计算困难，分类器的性能会随着特征数的增加而下降；减少高维的冗余信息所造成的误差,可以提高识别的精度。
常用于：比较常用的是主成分分析算法（PCA）。它是通过某种线性投影，将高维的数据映射到低维的空间中表示，并期望在所投影的维度上数据的方差最大，以此使用较少的数据维度，同时保留住较多的原数据点的特性。
3.6人工神经网络
3.6.1 人工神经网络——逐层抽象，逼近任意函数
原理：前面介绍了九种传统的机器学习算法，现在介绍一下深度学习的基础：人工神经网络。它是模拟人脑神经网络而设计的模型，由多个节点（人工神经元）相互联结而成，可以用来对数据之间的复杂关系进行建模。不同节点之间的连接被赋予了不同的权重，每个权重代表了一个节点对另一个节点的影响大小。每个节点代表一种特定函数，来自其他节点的信息经过其相应的权重综合计算。是一个可学习的函数，接受不同数据的训练，不断通过调整权重而得到契合实际模型,一个三层的神经网络可以逼近任意的函数。

多层神经网络的每一层神经元学习到的是前一层神经元值的更抽象的表示，通过抽取更抽象的特征来对事物进行区分，从而获得更好的区分与分类能力。例如在图像识别中，第一个隐藏层学习到的是 “边缘”的特征，第二层学习由“边缘”组成的“形状”的特征，第三层学习到的是由“形状”组成的“图案”的特征，最后的隐藏层学习到的是由“图案”组成的“目标”的特征。
3.7深度学习
3.7.1 深度学习——赋予人工智能以璀璨的未来
原理：深度学习是机器学习的分支，是对人工神经网络的发展。深度学习是当今人工智能爆炸的核心驱动，赋予人工智能以璀璨的未来。

看一下深度学习与传统机器学习的区别。传统机器学习特征处理和预测分开，特征处理一般需要人工干预完成。这类模型称为浅层模型，或浅层学习，不涉及特征学习，其特征主要靠人工经验或特征转换方法来抽取。
要提高一种表示方法的表示能力，其关键是构建具有一定深度的多层次特征表示。一个深层结构的优点是可以增加特征的重用性，从而指数级地增加表示能力。从底层特征开始，一般需要多步非线性转换才能得到较为抽象的高层语义特征。这种自动学习出有效特征的方式称为“表示学习”。

深度学习就是一种基于对数据进行表征学习的方法，使用多层网络，能够学习抽象概念，同时融入自我学习，逐步从大量的样本中逐层抽象出相关的概念，然后做出理解，最终做出判断和决策。通过构建具有一定“深度”的模型，可以让模型来自动学习好的特征表示（从底层特征，到中层特征，再到高层特征），从而最终提升预测或识别的准确性。

常用于：目前深度学习的应用十分广泛，例如图像识别、语音识别、机器翻译、自动驾驶、金融风控、智能机器人等。