机器学习
机器学习从0到1
云晓-
数据治理,数据分析,相信自己,终有所成。坚持学习!
展开
-
机器学习评价标准
评价指标准确率(Accuracy):预测正确的样本占所有样本的比例弊端:不能处理不平衡数据集(多种类别数据分布不平衡),例如地震的预测,新冠患者的预测精确率(Precision):在所有被分类为正例的样本中,真正是正例的比例常用于:推荐系统,例如推荐他喜欢的歌曲数量(10首),他实际喜欢的歌曲数量等召回率(Recall)(医学上称作灵敏度,真阳性率):实际为正例的样本中,被预测为正例的比例常用于:医学特异度(Specificity):实际为负例的样本中,被预测为负例的样本比例ROC原创 2021-11-12 13:53:51 · 1154 阅读 · 0 评论 -
模型误差基本概念
模型误差 = 偏差(Bias)+ 方差(Variance)+ 数据本身的误差偏差:度量了学习算法的期望预测与真实结果的偏离程度,即刻画了算法本身的拟合能力;方差:度量了同样大小的训练集的变动所导致的学习性能变化,即刻画了数据扰动所造成的影响偏差和方差来源:导致偏差的原因有多种,其中一个就是针对非线性问题使用线性方法求解,当模型欠拟合时,就会出现较大的偏差;产生高方差的原因通常是由于模型过于复杂,即模型过拟合时,会出现较大的方差偏差、方差和模拟欠拟合和过拟合的关系? 欠拟合:偏差大,方差小原创 2021-11-12 00:10:24 · 3572 阅读 · 0 评论 -
训练集、验证集以及测试集的区别
训练集:含有参考答案的数据,用来训练模型的已标注数据,用来建立模型,发现规律验证集:模型训练过程中单独留出的样本集,用于调整模型的超参数和用于对模型的能力进行初步评估测试集:用来评估模最终模型的泛化能力,但不能作为调参、选择特征等算法相关的选择的依据。已标注数据,通常做法是将标注隐藏,输送给训练好的模型,通过结果与真实标注进行对比,评估模型的学习能力总体数据集划分方法:根据已有全部标注数据,随机选出一部分数据(比如70%)作为训练数据,余下的作为测试数据训练集/验证集的划分:两种方法原创 2021-11-11 23:57:12 · 13449 阅读 · 1 评论 -
机器学习基础
1、机器学习的定义:机器学习 (Machine (Machine Learning, Learning, Learning,ML) 是一门多领域交叉学科 ,涉及概 涉及概 涉及概 率论 、统计学 、逼近论 、凸分析 、算法复杂度理论等多门学科 。专 门研究计算机怎样模拟或实现人类的学习行为 ,以获取新的知识或 技能 ,重新组织已有的知识结构 (利用数据或经验等 )使之不断改善自身的性能。2、机器学习的本质:机器学习(基于数据的):模型自动的从数据学习规律(训练)3、机器学习分类:标签的角度:有监督原创 2021-11-10 13:51:52 · 436 阅读 · 0 评论