机器学习综述

最新推荐文章于 2024-07-30 01:28:06 发布

吾苏踵

最新推荐文章于 2024-07-30 01:28:06 发布

阅读量1.6k

点赞数

文章标签：机器学习

本文链接：https://blog.csdn.net/weixin_42442693/article/details/81738380

版权

一、分类

监督学习/无监督学习/强化学习/迁移学习；

算法：线性回归/k-近邻算法/决策树/随机森林/PCA/神经网络；

二、监督学习

kNN

将标注好的和测试的样本映射到坐标系中，选取距离该测试样本欧式距离最近的k个训练样本，其中哪个训练样本占比最大，我们就认为它是该测试样本所属类别。kNN可以处理数值型和标称型数据，原因在于计算的时间空间复杂度都太高。

决策树

构建决策树，每次选择让整体数据香农熵减小最多的特征，使用特征值对数据进行划分，每次消耗一个特征，不断迭代分类，直到所有特征消耗完或剩下的数据全为同一类别，不必继续划分，至此决策树构建完成。

朴素贝叶斯

先计算联合概率分布，再利用贝叶斯公式计算给定某个样本数据后，被分到每个类别的概率分别是多少，然后取最大的那个最为该样本数据的类别。

逻辑回归

我们被给予一堆X维的数据，希望通过一条直线将这对数据正确的分为两类。我们建立一个线性分类模型。先设置厨师响亮，输入训练数据后，将得到的参数代入Sigmoid函数，将0.5设为阈值，大于0.5的为一类，其他为另一类。训练过程为先利用最大似然估计得到目标函数，再利用梯度上升算法优化目标函数，使得训练样本生成概率最大化。

20.逻辑回归和搜索广告：广告的历史：竞价排名（百度）。点击率预估。逻辑回归模型是将一个事件出现的概率适应到一条逻辑曲线上。逻辑曲线是一条S型的曲线，其特点是开始变化快，逐渐变慢，最后饱和。变量代表了影响概率预测的各种信息，比如广告的位置、广告和搜索词的相关性、广告展现的时间。自回归参数，表示相应变量的重要性，它与任何变量无关，仅仅保证在没有任何信息时，又一个稳定的概率分布。如何选取与广告点击相关的信息，如何决定这些参数，这两个问题是关键点。广告系统对于点击率预估的方法，都是采用逻辑回归函数来预测的。逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型，训练方法是都可以采用通用迭代算法GIS和改进的迭代算法IIS来实现。

支持向量机

降1维来分隔数据，距离平面最近的点叫做支持向量，利用SMO最大化支持向量到分隔面的距离，我们计算样本点到分隔超平面的函数间隔，间隔为正则分类正确。若数据不是线性可分的，则引入核函数将数据从低维空间映射到高维空间，将非线性问题变为线性问题。

元算法

AdaBoost通过组合多个弱分类器来构建一个强分类器，为每一个样本都赋予其一个权重，最后综合多个弱分类器的分类结果和其对应的权重的道预测结果。

利用回归预测数值型数据

线性回归：

最小二乘法/局部加权线性回归/岭回归/前向逐步回归/树回归。

KNN/决策树/逻辑回归和SVM都属于判别方法，朴素贝叶斯属于生成方法。

三、无监督学习

k-均值聚类算法

选择k个初始点作为质心，然后为每个样本点找最近的质心，并将其分配给对应的簇，然后将每个簇的质心更新为该簇所有点的平均值。质心位置改变，对样本点的划分也随之改变，不断迭代直到所有样本点的分类都不再改变，也叫算法收敛。

使用Apriori算法进行关联分析

根据所给数据构建一个项集，然后判断每个项集的支持度。去掉不足的项集，再组合一元素项集构建二元素项集，再去掉支持度不足的项集，知道不存在拥有更多元素的频繁项集。之后是发现关联规则，利用分级法，先生成右边只有一个元素的关联规则，然后判断每条哦规则的可信度，去掉那些不足的，将剩下的拆分子集，生成右边有两个元素的关联规则，不断迭代直到不存在右侧有更多元素的关联规则。