2. 机器学习
文章平均质量分 78
机器学习算法
要坚持写博客呀
这个作者很懒,什么都没留下…
展开
-
样本不平衡问题总结
一、样本不平衡介绍1. 样本不平衡现象:训练数据中各种类别样本数量差别过大,导致训练的模型对各个类别预测或分类的精度偏差比较大,比如电池故障预测,故障的数据量远远少于正常数据量,但是这些故障数据反而更重要。2. 样本不平衡影响:训练样本不平衡,那么模型更容易偏向样本量多的类别,因为模型把样本量的大的类别预测对,整体精度也会高,就不会在意少量样本类别,但这是不对的。即模型会学习到按照样本类别比例的先验信息,而解决样本不平衡能解决学习到这种先验信息,能从本质正确的判断预测不同类别。举个栗子: 比如模型原创 2022-05-24 22:23:44 · 5409 阅读 · 1 评论 -
统计学习方法——5.逻辑斯蒂回归与最大熵模型
一、简介感知机模型用于解决二分类问题。二、大概原理1. 步骤:2. 细节:1. 感知机的表达形式三、代码实现1.手动实现代码来自:2.库实现sklearn.linear_model.Perceptron的参数和属性参数:属性:代码实现步骤:#coding=utf-8ps:本博客仅供自己复习理解,不具其他人可参考,本博客参考了大量的优质资源,侵删。...原创 2022-01-17 10:41:39 · 418 阅读 · 0 评论 -
统计学习方法——4.决策树——XGBoost、LightGBM
一、介绍XGBoost: 多个决策树投票(基于bagging)。Random Forest = 随机选择样本(有放回)+随机选择特征+多个决策树+随机森林投票 。LightGBM: 分错样本权重加强后继续训练新的分类器,直到满足设定足够小的错误率。Adaboost =初始化每个样本权重 +根据分类是否正确更新样本权重 +更新后的样本权重使用新的分类器训练 +组合训练的分类器(根据是否加大分类误差率为每个弱分类器适应新的权重)GBDT(梯度提升决策树,Gradient Boo原创 2022-01-13 16:32:48 · 858 阅读 · 0 评论 -
统计学习方法——4.决策树——Random Forest、Adaboost、GBDT
一、介绍随机森林(Random Forest): 多个决策树投票(基于bagging)。Random Forest = 随机选择样本(有放回)+随机选择特征+多个决策树+随机森林投票 。自适应增强(Adaboost): 分错样本权重加强后继续训练新的分类器,直到满足设定足够小的错误率。Adaboost =初始化每个样本权重 +根据分类是否正确更新样本权重 +更新后的样本权重使用新的分类器训练 +组合训练的分类器(根据是否加大分类误差率为每个弱分类器适应新的权重)GBDT(梯原创 2022-01-07 14:59:15 · 591 阅读 · 0 评论 -
机器学习——集成学习
一、介绍集成学习: 三个臭皮匠顶个诸葛亮。相当于是多个相同或者不同的模型使用相同或者不同的训练集进行“并行或递进”式的进行模型集成,达到“1+1>2”的效果。多模型投票: n个分类器进行结果预测,预测的结果少数服从多数然后输出最后结果。bagging: 对于每个分类器使用的训练集都是在所有训练集中每次有放回的随机抽样,然后进行投票。降低了方差。boosting: 每个分类器的训练集和上次随机抽取训练集中预测错误的或不一致的训练集组成,然后训练多个分类器进行投票。Adaboosting 使用的原创 2022-01-07 09:47:13 · 548 阅读 · 0 评论 -
统计学习方法——4.决策树(Decision Tree)
一、介绍决策树用于分类和回归,此处主要学习决策树的分类模型。通过对大量样本的学习去建立一个决策树,依次判断每个属性,从而判断该样本的标记。特征选择:**决策树的生成: ID3, C4.5, **决策树的剪枝:CART算法:。二、细节1. 决策树学习3个步骤:特征选择、决策树的生成、决策树的修剪。三、代码实现1.手动实现代码来自:https://www.pkudodo.com/2018/11/30/1-5/2.库实现sklearn.linear_model.Perce原创 2021-12-29 17:49:18 · 988 阅读 · 0 评论 -
统计学习方法——3. 朴素贝叶斯法(Naive Bayes, NB)
一、简介朴素贝叶斯用于解决分类问题。“朴素”:假设各个特征之间相互条件独立。1. 概率概念补充:先验概率、后验概率: 先验根据统计或经验所得;先验概率是以全事件为背景下,A事件发生的概率,p(A∣Ω)p(A|\Omega)p(A∣Ω)。后验概率就是发生结果之后推测原因的概率;后验概率是以新事件B为背景下,A事件发生的概率,p(A∣B)p(A|B)p(A∣B)。全事件一般是统计获得的,没有试验前的概率。新事件一般是实验,如试验B,此时的事件背景从全事件变成了B,该事件B可能对A的概率有影响,那么原创 2021-12-27 16:36:05 · 984 阅读 · 0 评论 -
统计学习方法——2. K近邻法(KNN)
一、简介感知机模型用于解决二分类问题。二、大概原理1. 步骤:2. 细节:1. 感知机的表达形式三、代码实现1.手动实现代码来自:2.库实现sklearn.linear_model.Perceptron的参数和属性参数:属性:代码实现步骤:#coding=utf-8ps:本博客仅供自己复习理解,不具其他人可参考,本博客参考了大量的优质资源,侵删。...原创 2021-12-23 16:39:25 · 1256 阅读 · 0 评论 -
统计学习方法——1.感知机
一、简介二、大概原理三、代码实现1.手动实现2.库实现ps:本博客仅供自己复习理解,不具其他人可参考,本博客参考了大量的优质资源,侵删。原创 2021-12-10 17:53:54 · 176 阅读 · 0 评论 -
分类问题评价指标及用法
一、简介混淆矩阵(Confuse Matrix)准确率(Accuracy)精确率(Precision)召回率(Recall)F1-ScoreP-R曲线(Precision-Recall Curve)ROCAUC多分类二、混淆矩阵TP(True Positives):实际为正例,预测为正例,预测对了。FN(False Negatives):实际为正例,预测为负例,预测错了。TN(True Negatives):实际为负例,预测为负例,预测对了。FP(False Positiv原创 2021-09-28 15:43:36 · 444 阅读 · 0 评论