转换器和预估器 转换器-特征工程预估器-机器学习算法 KNN算法 根据你的邻居来确定类别谁是邻居—距离共识k的取值 k过小,容易受到异常值的影响 k过大,容易受到样本不均衡的影响应用场景:少量数据 朴素贝叶斯算法 朴素:假定了特征与特征之间的相互独立贝叶斯:贝叶斯公式拉普拉斯平滑系数- 解决:训练集样本量太少导致的概率为0问题缺点:特征属性有关联时其效果不好应用场景:文本分类 决策树 找到最高效的决策顺序–信息增益信息增益 = 信息熵-条件熵优点:可视化,可解释能力强 随机森林 随机 训练集随机 特征随机森林 多个决策树