文章目录
前言
提示:这里可以添加本文要记录的大概内容:
例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。
一、假设集合
首先抛出概念!
“假设集合是一类模型的集合”, 如线性模型,多项式模型,树模型,神经网络模型等。机器学习的过程是,选择一类模型作为假设集合,并从该假设集合中选取最贴近真实结果的数学模型。
举例来说,
如何来衡量一个假设集合?
理论上讲,肯定是越适合数据的假设集合越好,这句话听起来像是一句废话。。。但要清楚,在现实场景中,特征的维度很少是一维的,常表现为多维特征,那么通过matplot等工具是很难直观地反映出数据的分布规律。这时该如何做出处理?
- 扩大假设集合的范围。可避免选择单一模型作为假设集合。例如GBDT, Xgboost。
- 控制过拟合的风险。避免模型过度专注于训练样本。
二、如何来衡量假设集合
1.分类能力: VC Dimension
VC维,该假设集合能够shatter的最大数据量(shatter指划分数据的任意组合)。
VC维的思想:
用假设集合中最好的模型 vs 任意数据中最复杂的情况。
举例来说:
下图为线性模型的分类问题(线性模型的VC维是N+1, N是特征维度),可以看出特征是2维的(即圆圈和叉叉),VC维是2+1=3,即最多只能划分出3个点

因此,可以得出规律
- VC维要足够大,越大则说明可以shatter的数据量越大,即分类的情况越多。
- VC维和参数量近似一致,这也可以解释,特征选取的维度越多,对应的VC维就越大。
- 复杂模型,更多参数,即更多特征。
VC维需要被制衡
VC维大也只能代表在训练集下,此假设集合能够shatter更多的数据量,但并不代表训练集以外也能保持此状态。需要提升泛化能力。
过拟合:过度关注训练数据,对抗变化能力差
正则化:
L1正则项(lasso回归)
L2正则项(岭回归)
2.稳定性 bias-variance

评价指标汇总
回归指标
1.平均绝对误差MAE

和 MSE 一样,这种度量方法也是在不考虑方向的情况下衡量误差大小。但和 MSE 的不同之处在于,MAE 需要像线性规划这样更复杂的工具来计算梯度。此外,MAE 对异常值更加稳健,因为它不使用平方。
均方误差MSE

RMSE是回归问题中最常用的评估指标。它遵循一个假设,即误差是无偏的并遵循正态分布(具体可以看:
均方根误差RMSE

1.分类指标:Accuracy
精度Accurac是指模型预测正确(包括真正例TP、真反例TN)的样本数与总体样本数的占比,即:

其中,

在二分类的问题中:

准确率是分类问题中最简单直观的指标,但是在实际中应用不多。原因是:当样本标签分布不均衡时,比如:正样本占比99%,只要模型把所有样本都预测为正样本,则准确率达到99%,但是实际上模型根本没有预测能力。
2.分类指标:查准率与查全率
混淆矩阵如下所示
-
P (Positive) 和 N(Negative) 代表模型的判断结果
-
T (True) 和 F(False) 评价模型的判断结果是否正确

查准率P:在我们预测的所有正例当中,到底有多少是真正的正例
查全率R(召回率):在所有的真实正例当中,有多少正例被我们预测出来,即召回率
ROC与AUC

从公式来看,TPR与查全率R一样,即真实的正例中多少被正确预测,因此ROC曲线以“真正例率”(True Positive Rate,简称TPR)为Y轴,X轴为“假正例率”(False Positive Rate,简称FPR),ROC偏重研究基于测试样本评估值的排序好坏。

ROC曲线绘制
假设已经得出一系列样本被划分为正类的概率,然后按照大小排序,下图是一个示例,图中共有20个测试样本,“Class”一栏表示每个测试样本真正的标签(p表示正样本,n表示负样本),“Score”表示每个测试样本属于正样本的概率。

我们从高到低,依次将“Score”值作为阈值threshold,当测试样本属于正样本的概率大于或等于这个threshold时,我们认为它为正样本,否则为负样本。举例来说,对于图中的第4个样本,其“Score”值为0.6,那么样本1,2,3,4都被认为是正样本,因为它们的“Score”值都大于等于0.6,而其他样本则都认为是负样本。每次选取一个不同的threshold,我们就可以得到一组FPR和TPR,即ROC曲线上的一点。这样一来,我们一共得到了20组FPR和TPR的值,将它们画在ROC曲线的结果如下图:

AUC
AUC(Area under Curve):Roc曲线下的面积,
计算方法一
在有M个正样本,N个负样本的数据集里。一共有MN对样本(一对样本即,一个正样本与一个负样本)。统计这MN对样本里,正样本的预测概率大于负样本的预测概率的个数。

这样说可能有点抽象,我举一个例子便能够明白。

假设有4条样本。2个正样本,2个负样本,那么M*N=4。即总共有4个样本对。分别是:
(D,B),(D,A),(C,B),(C,A)。
在(D,B)样本对中,正样本D预测的概率大于负样本B预测的概率(也就是D的得分比B高),记为1
同理,对于(C,B)。正样本C预测的概率小于负样本C预测的概率,记为0.
最后可以算得,总共有3个符合正样本得分高于负样本得分,故最后的AUC为 
计算方法二



F1-Score
F1分数同时考虑精确率和召回率,让两者同时达到最高,取得平衡。F1分数表达式为

CTR
点击率=点击量/展现量

CVR
转化率,衡量CPA广告效果的指标

总结
提示:这里对文章进行总结:
例如:以上就是今天要讲的内容,本文仅仅简单介绍了pandas的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

972

被折叠的 条评论
为什么被折叠?



