机器学习综述

一、分类

监督学习/无监督学习/强化学习/迁移学习;

算法:线性回归/k-近邻算法/决策树/随机森林/PCA/神经网络;

二、监督学习

kNN

将标注好的和测试的样本映射到坐标系中,选取距离该测试样本欧式距离最近的k个训练样本,其中哪个训练样本占比最大,我们就认为它是该测试样本所属类别。kNN可以处理数值型和标称型数据,原因在于计算的时间空间复杂度都太高。

决策树

构建决策树,每次选择让整体数据香农熵减小最多的特征,使用特征值对数据进行划分,每次消耗一个特征,不断迭代分类,直到所有特征消耗完或剩下的数据全为同一类别,不必继续划分,至此决策树构建完成。

朴素贝叶斯

先计算联合概率分布,再利用贝叶斯公式计算给定某个样本数据后,被分到每个类别的概率分别是多少,然后取最大的那个最为该样本数据的类别。

逻辑回归

我们被给予一堆X维的数据,希望通过一条直线将这对数据正确的分为两类。我们建立一个线性分类模型。先设置厨师响亮,输入训练数据后,将得到的参数代入Sigmoid函数,将0.5设为阈值,大于0.5的为一类,其他为另一类。训练过程为先利用最大似然估计得到目标函数,再利用梯度上升算法优化目标函数,使得训练样本生成概率最大化。

20.逻辑回归和搜索广告:广告的历史:竞价排名(百度)。点击率预估。逻辑回归模型是将一个事件出现的概率适应到一条逻辑曲线上。逻辑曲线是一条S型的曲线,其特点是开始变化快,逐渐变慢,最后饱和。变量代表了影响概率预测的各种信息,比如广告的位置、广告和搜索词的相关性、广告展现的时间。自回归参数,表示相应变量的重要性,它与任何变量无关,仅仅保证在没有任何信息时,又一个稳定的概率分布。如何选取与广告点击相关的信息,如何决定这些参数,这两个问题是关键点。广告系统对于点击率预估的方法,都是采用逻辑回归函数来预测的。逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型,训练方法是都可以采用通用迭代算法GIS和改进的迭代算法IIS来实现。

支持向量机

降1维来分隔数据,距离平面最近的点叫做支持向量,利用SMO最大化支持向量到分隔面的距离,我们计算样本点到分隔超平面的函数间隔,间隔为正则分类正确。若数据不是线性可分的,则引入核函数将数据从低维空间映射到高维空间,将非线性问题变为线性问题。

元算法

AdaBoost通过组合多个弱分类器来构建一个强分类器,为每一个样本都赋予其一个权重,最后综合多个弱分类器的分类结果和其对应的权重的道预测结果。

利用回归预测数值型数据

线性回归:

最小二乘法/局部加权线性回归/岭回归/前向逐步回归/树回归。

KNN/决策树/逻辑回归和SVM都属于判别方法,朴素贝叶斯属于生成方法。

三、无监督学习

k-均值聚类算法

选择k个初始点作为质心,然后为每个样本点找最近的质心,并将其分配给对应的簇,然后将每个簇的质心更新为该簇所有点的平均值。质心位置改变,对样本点的划分也随之改变,不断迭代直到所有样本点的分类都不再改变,也叫算法收敛。

使用Apriori算法进行关联分析

根据所给数据构建一个项集,然后判断每个项集的支持度。去掉不足的项集,再组合一元素项集构建二元素项集,再去掉支持度不足的项集,知道不存在拥有更多元素的频繁项集。之后是发现关联规则,利用分级法,先生成右边只有一个元素的关联规则,然后判断每条哦规则的可信度,去掉那些不足的,将剩下的拆分子集,生成右边有两个元素的关联规则,不断迭代直到不存在右侧有更多元素的关联规则。

FP-growth算法发现频繁项集

一次构建FP树,一次从FP树中挖掘频繁项集。常被用作联想输入。

其他工具:利用PCA和SVD来简化数据

y=kx+b,推测出k值的过程称为回归,参数是b。

四、强化学习

理解环境/不需要理解环境

五、迁移学习

样本/特征/模型/关系迁移法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值