目录
机器学习复习思维导图
机器学习与传统技术的区别
1、用数学方法解决物理问题(求解方程,分析系统状态)
根据定理->列方程->物理问题数学模型->求解方程->得到结果
2、优化算法(配置系统)
如何配置参数使得系统运行最优
3、机器学习(数据的映射关系)
机器学习的核心在于总结数据规律,学习的对象是数据。针对数据(实验数据或用户数据)选择合适的机器学习模型,调节超参数,让机器学习模型从数据中找到某种规律,进行预测。实际上构建了一个函数,构建的函数可以帮助我们去发现定理
交叉验证
评价模型的策略:交叉验证
评价模型的指标:准确率,精准度,召回率
根据评价模型的策略和评价模型的指标通过调参控制模型的拟合程度(对分界线的拟合效果),即控制模型拟合程度。
1、基本交叉验证:训练数据与测试数据分开
2、标准k折:随机分成k份,其中k-1份为训练数据,1份为测试数据
3、分层k折:在k折的基础上每一份内各类分布与总体分布一致
4、留一法:每一次测试集只有一个样本,遍历所有样本
5、随机排列:随机划分多次
KNN
KNN算法的原理,具体步骤
原理:物以类聚,人以群分:如果一个样本在特征空间中的k个最相邻的样本中的大多数属于某一个类别,则该样本也属于这个类别,并具有这个类别上样本的特性。
步骤:1、训练数据归一化、
2、算新样本与训练样本之间的距离
3、根据距离做排序,取距离新样本最近的前K个
4、对前K个样本进行统计,统计哪一类数量最多
5、选取数量最多的那一类作为新样本的类别
KNN中是否存在超参数,超参数对KNN分类产生什么影响
K:距离最近邻居数。若K较小,则会出现过拟合(圈小-->对细节把控的过紧);若K较大,则会出现欠拟合(圈大-->细节捕捉不到)
p:计算距离的次数。当p=1时为曼哈顿距离,当p=2时,为欧氏距离。
曼哈顿距离公式:
欧氏距离:
贝叶斯
结合垃圾邮件识别,详细介绍一下贝叶斯的流程
1、算先验概率: P(词|正),P(词|拉)
正常邮件和垃圾邮件中词出现的概率:P(正),P(垃)
2、根据先验概率推后验概率:
根据新邮件中的词集合,求P(垃|词集合)
假设词与词之间是相互独立的
3、通过判断概率值是否大于0.5,来确定该邮件是否是垃圾邮件
贝叶斯分类有哪几种,分别适用于那种场合
1、高斯贝叶斯分类器(GaussianNB)
样本数据分布是高斯分布(正态分布)
适用场合:特征数据大部分是连续数据(前提:这些数据是主要特征)
2、多项式贝叶斯分类器(Multinomial)
样本数据是多项分布(多个离散值)
适用场合:特征数据大部分是多个离散值(前提:这些数据是主要特征)
3、伯努利贝叶斯分类器(Bernoulli)
样本数据是伯努利分布(二项分布)
决策树
与KNN和贝叶斯比较,有什么优劣
KNN | 贝叶斯 | 决策树 | |
训练 | 快 | 适中 | 慢 |
预测 | 慢 | 适中 | 快 |
调参 | K,P | 不用调 | 7~8个参数可调 (易过拟合) |
归一化 | 需要 | 不需要 | 不需要 |
集成学习主要目的,Bagging和Bosting有什么区别
目的:1、结合不同的模型学习能力,产生更强的模型
2、将原有模型中的欠拟合,过拟合
区别:
Bagging:放回取样,用不同的样本或特征去训练不同的模型,然后集成
Boosting:递进增强,每次训练模型都会强化上一个模型训练出错的样本,逐次递进,训练集成
支持向量机
线性支持向量机(二分类)原理
1、分界线距离两个类别样本点尽可能的远
2、距离分界线最近的两类样本点构成构成的平行线之间的距离 margic最大
3、最近的点到分界线的距离d最大(支持向量)
4、找到分界线参数,使d尽可能的大,同时使所有样本点不在平行线之间
高斯核SVM中,参数C, gamma分别起什么作用
C:设置惩罚度(对误差容忍度)。C越小,容忍度越强;C越大,容忍度越弱(容易过拟合)。
gamma:设置高斯核的幅度。gamma越小,方差越大,即幅度宽,影响范围大;gamma越大,方差越小,即幅度窄,影响范围小。
回归分析
KNN 实现回归的步骤
1、归一化
2、算距离(新样本点(x轴)到训练样本的距离)
3、对距离排序,取前K个
4、对前K个y值进行加权计算,并作为预测值
聚类(聚类圆形数据)
KMeans
1、随机生成K个中心点(随机分类生成)
2、分别计算所有样本和K个中心点的距离
3、比较距离,样本点离哪个中心点近就是哪一类
4、对新分好的样本重新计算中心点
5、重复2~4步,直到达到最大迭代次数或是中心点不再移动的位置
混合高斯聚类(聚类椭圆形数据)
1、随机分为K个类
2、算每个类的分布参数(,
)
3、根据每个类的分布参数,对每个样本点重新分类
4、重复2~3步,直到直到达到最大迭代次数或是分布参数不再变化的位置