决策树
K-means算法
随机选择初始中心,对任意一个样本求到每一个中心的距离,并归入最近的中心类,反复更新类的中心,直到中心不变或达到最大迭代次数,算法结束。
算法容易收敛到局部最优值,初始点不同,结果有微小差异,但可以通过多次选取初始点,统计收敛中心点的出现次数。
这是一个简洁快速的非监督算法。
如何评估聚类数
轮廓系数结合了内聚和分离两种因素,同时考察了组内相似和组间差异,绝对值趋近于1则两者都相对较优。
支持向量机
核函数可以将低维线性不可分的情况转化为高维线性可分来处理。
Apriori
支持度、可信度、频繁项集、
EM算法
BIC是贝叶斯信息准则,模型越简单,解释力越强,BIC值就越低。
PageRank算法
AdaBoost算法
过程是:
1. 初始化样本权重均等。
2. 自适应增强,体现于某个样本被一个弱分类器分错,那么下一轮训练中,该样本权重增强,每一轮都会加入一个更加准确的弱分类器。迭代直至停机条件最大次数或最低准确率。
3. 系列弱分类器形成以后,对样本进行投票,根据准确率赋予每个弱分类器不同的权重,组合成强分类器。
经常使用决策树来作为弱分类器,但和随机森林不同,只有输入样本不同,变量是相同的。
特点是:
准确率高,几乎使决策树起死回生。
速度快,基本不用调参数。
几乎不会过拟合。
KNN
物以类聚,人以群分
关键点是:
K的确定取决于数据分布,较小的K更不易受样本不均衡的影响,较大的K能减小噪声的影响。
最近邻的距离定义要根据实际数据和业务来确定。
非线性,对于类域的交叉重叠较多的待分样本,方法比较适用。
有点类似PageRank,但KNN只考虑临近点的个数,PageRank还考虑临近点的质量。
朴素贝叶斯
贝叶斯公式和后验概率思想
CART
二分递归分割,将当前样本划分为两个子样本,使得生成的每个非叶子节点都有两个分支,形成二叉决策树。
基尼系数是划分的标准,越接近一则表示收入分配越不平均,划分越好。