一 机器学习
解决过拟合的方法:
1 增加样本数量
2 简化模型,决策树减少层数
3 使用深度学习
监督学习:决策树,随机森林,KNN,支持向量机,朴素贝叶斯
无监督:k-means
决策树:
决策树是一种对样本进行分类的树形结构,也能够进行回归预测。决策树主要包含3种结点(根结点:初始结点;叶节点:最终分类结果结点;内结点:树内部进行判断的条件结点-即特征) 在决策树中,每个样本都只能被一条路径覆盖。
决策树有三种生成算法分别是ID3、C4.5、CART,分别基于信息增益、信息增益比、基尼指数划分的。
决策树的优点:①易于理解和解释、可以可视化分析,容易提取出规则。②速度快、计算量相对较小。③可以处理连续和种类字段 f 决策树的缺点:①数据集特征很多时,容易过拟合。②忽略了特征之间的相关性。
n_estimators : 指定随机森林中的分类器的个数,默认为10。一般来说n_estimators 太小容易欠拟合,太大计算量大,故需要参数调优选择一个适中的数值;
oob_score: 是否采用袋外误差来评估模型,默认为 False;
criterion :及CART树划分对特征的评价标准,默认我基尼指数,还可以选择信息增益;
参数
K-means
1. 算法原理:k-means 算法是一种无监督聚类算法,即其思想是将样本全部分成K类,使得类间样本的距离足够大,而使得类内的样本距离足够小。
2. 过程:
首先选择k个点作为初始点,随后将每个点指派到最近的质心,形成k个簇并重新计算每个簇的质心,直到簇不发生变化或达到最大迭代次数。
优点:原理简单、收敛速度快,聚类效果较优、算法解释度比较强。
缺点:K值的选取不好把握、非凸数据集难以收敛、采用迭代方法容易得到局部最优结果、对噪声、异常值比较敏感。
实际应用点:潜在的簇是凸面,且簇之间区别明显,大小相近,适用于大数据。
拍脑袋法
一个非常快速的,拍脑袋的方法是将样本量除以2再开平方出来的值作为K值,具体公式为:
K≈n/2−−−√
肘部法则(Elbow Method)
Elbow Method :Elbow意思是手肘,如下图左所