一、分类
监督学习/无监督学习/强化学习/迁移学习;
算法:线性回归/k-近邻算法/决策树/随机森林/PCA/神经网络;
二、监督学习
kNN
将标注好的和测试的样本映射到坐标系中,选取距离该测试样本欧式距离最近的k个训练样本,其中哪个训练样本占比最大,我们就认为它是该测试样本所属类别。kNN可以处理数值型和标称型数据,原因在于计算的时间空间复杂度都太高。
决策树
构建决策树,每次选择让整体数据香农熵减小最多的特征,使用特征值对数据进行划分,每次消耗一个特征,不断迭代分类,直到所有特征消耗完或剩下的数据全为同一类别,不必继续划分,至此决策树构建完成。
朴素贝叶斯
先计算联合概率分布,再利用贝叶斯公式计算给定某个样本数据后,被分到每个类别的概率分别是多少,然后取最大的那个最为该样本数据的类别。
逻辑回归
我们被给予一堆X维的数据,希望通过一条直线将这对数据正确的分为两类。我们建立一个线性分类模型。先设置厨师响亮,输入训练数据后,将得到的参数代入Sigmoid函数,将0.5设为阈值,大于0.5的为一类,其他为另一类。训练过程为先利用最大似然估计得到目标函数,再利用梯度上升算法优化目标函数,使得训练样本生成概率最大化。
20.逻辑回归和搜索广告:广告的历史:竞价排名(百度)。点击率预估。逻辑回归模型是将一个事件出现的概率适应到一条逻辑曲线上。逻辑曲线是一条S型的曲线,其特点是开始变化快,逐渐变慢,最后饱和。变量代表了影响概率预测的各种信息,比如广告的位置、广告和搜索词的相关性、广告展现的时间。自回归参数,表示相应变量的重要性,它与任何变量无关,仅仅保证在没有任何信息时,又一个稳定的概率分布。如何选取与广告点击相关的信息,如何决定这些参数,这两个问题是关键点。广告系统对于点击率预估的方法,都是采用逻辑回归函数来预测的。逻辑回归模型是一种将影响概率的不同因素结合在一起的指数模型,训练方法是都可以采用通用迭代算法GIS和改进的迭代算法IIS来实现。
支持向量机
降1维来分隔数据,距离平面最近的点叫做支持向量,利用SMO最大化支持向量到分隔面的距离,我们计算样本点到分隔超平面的函数间隔,间隔为正则分类正确。若数据不是线性可分的,则引入核函数将数据从低维空间映射到高维空间,将非线性问题变为线性问题。
元算法
AdaBoost通过组合多个弱分类器来构建一个强分类器,为每一个样本都赋予其一个权重,最后综合多个弱分类器的分类结果和其对应的权重的道预测结果。
利用回归预测数值型数据
线性回归:
最小二乘法/局部加权线性回归/岭回归/前向逐步回归/树回归。
KNN/决策树/逻辑回归和SVM都属于判别方法,朴素贝叶斯属于生成方法。
三、无监督学习
k-均值聚类算法
选择k个初始点作为质心,然后为每个样本点找最近的质心,并将其分配给对应的簇,然后将每个簇的质心更新为该簇所有点的平均值。质心位置改变,对样本点的划分也随之改变,不断迭代直到所有样本点的分类都不再改变,也叫算法收敛。
使用Apriori算法进行关联分析
根据所给数据构建一个项集,然后判断每个项集的支持度。去掉不足的项集,再组合一元素项集构建二元素项集,再去掉支持度不足的项集,知道不存在拥有更多元素的频繁项集。之后是发现关联规则,利用分级法,先生成右边只有一个元素的关联规则,然后判断每条哦规则的可信度,去掉那些不足的,将剩下的拆分子集,生成右边有两个元素的关联规则,不断迭代直到不存在右侧有更多元素的关联规则。
FP-growth算法发现频繁项集
一次构建FP树,一次从FP树中挖掘频繁项集。常被用作联想输入。
其他工具:利用PCA和SVD来简化数据
y=kx+b,推测出k值的过程称为回归,参数是b。
四、强化学习
理解环境/不需要理解环境
五、迁移学习
样本/特征/模型/关系迁移法