一、监督学习
感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归、支持向量机、提升方法、
二、无监督学习
聚类方法、奇异值分解、主成分分析
分类算法:knn,朴素贝叶斯、决策树、支持向量机、集成方法
回归算法:
knn:
对于离散型的因变量来说,从K个最近的已知类别样本中挑选出频率最高的类别用于未知样本的判断;
对于连续型因变量来说,则是将K个最近的已知样本的均值用于未知样本的预测。
步骤:
1)确定未知样本近邻的个数K值;
2)根据某种度量样本间的相似度的指标(如欧氏距离)将每一个未知类别样本的最近k个已知样本搜寻出来,形成一个簇;
3)对搜寻出的已知样本进行投票,将各簇下类别最多的分类用作未知样本点的预测。
朴素贝叶斯:
通过已知类别的训练数据集,计算样本的先验概率,然后利用贝叶斯概率公式测算未知类别样本属于某个类别的后验概率,最终以最大后验概率所对应的类别作为样本的预测值。
线性回归:
根据已知的变量(自变量)来预测某个连续数值变量(因变量)
逻辑斯蒂回归
非线性模型,专门用来解决二分类得到离散问题,相对于其他很多分类算法(SVM,神经网络,随机森林等)来说,具有很强的可解释性。
分类模型的评估方法:混淆矩阵(confusion_matrix) ,指标:accuracy,sensitivity(正例覆盖率)、specificity
ROC曲线(roc_curve):通过可视化的方法实现模型好坏的评估:x轴:1- specificity,y轴:sensitivity(折线下的面积:AUC,越大越好)
K-S曲线:
KS=sensitivity+specificity-1
决策树
if_then思想,可以用于数值型因变量的预测和离散型因变量的分类
随机森林:多颗决策树构成的集合
k-means
Means算法的思想很简单,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇。让簇内的点尽量紧密的连在一起,而让簇间的距离尽量的大。
算法步骤:
1.(随机)选择K个聚类的初始中心;
2.对任意一个样本点,求其到K个聚类中心的距离,将样本点归类到距离最小的中心的聚类,如此迭代n次;
3.每次迭代过程中,利用均值等方法更新各个聚类的中心点(质心);
4.对K个聚类中心,利用2,3步迭代更新后,如果位置点变化很小(可以设置阈值),则认为达到稳定状态,迭代结束,对不同的聚类块和聚类中心可选择不同的颜色标注。
优点
1)原理比较简单,实现也是很容易,收敛速度快。
2)聚类效果较优。
3)算法的可解释度比较强。
4)主要需要调参的参数仅仅是簇数k。