函数二范数_机器学习问题(二)

d9def145fd3613b34fe44a1de8ce5187.png

1. 什么是期望风险?经验风险?两者的关系?

风险函数(期望损失):损失函数的期望

期望风险:模型关于联合分布的期望损失

经验风险:模型关于训练数据集的平均损失

关系:大数定律,后者接近前者;可用后者估计前者

训练误差:模型f关于训练数据集的平均损失 (模型f的经验风险)

测试误差:模型f在测试集上的误差 (可以用于估计泛化误差)

泛化误差:学到的模型f对未知数据预测的误差 (是模型f的期望风险)

2. 极大似然估计和经验风险最小化?最大后验概率估计与结构风险最小化?

当模型是条件概率模型,损失函数是对数损失时,经验风险最小化等价于极大似然估计;(logistic regression)

当模型是条件概率模型,损失函数是对数损失,模型复杂度由模型的先验概率表示时,结构风险最小化等价于最大后验概率估计。(贝叶斯估计)

3. 什么是泛化能力?泛化误差?

泛化能力:模型对未知数据的预测能力

泛化误差:学到的模型f对未知数据预测的误差 (是模型f的期望风险)

4. 衡量模型泛化能力的评价标准——性能度量?

(1) 回归任务:常用“均方误差” MSE

(2) 分类任务: accuracy (准确率、精度) => (TP+TN)/(TP+TN+FP+FN)

(3) 二分类任务:precision (精确度、查准率) => P=TP/(TP+FP)

recall (召回率、查全率) => R=TP/(TP+FN)

F1 (P和R的调和平均) => 2/F1=1/P+1/R

P-R曲线 => 如果学习器A的P-R曲线包住了学习器B,则A好于B

(4) ROC曲线:纵轴 => 正正例率 TPR=TP/(TP+FN)

横轴 => 假正例率 FPR=FP/(TN+FP)

AUC:ROC曲线下的面积,AUC越大,学习器越好

(5) cost-sensitive错误率:不同类型的错误造成的损失权重不同

cost curve (代价曲线):横轴是正例概率代价;纵轴是归一化代价

5. 什么是过拟合?为什么会发生?怎么判断?怎么防止?

欠拟合:模型在训练集上的表现就很差

原因:模型过于简单(偏差大)

解决:增加新特征、尝试非线性模型、使用较小的正则相参数、提升方法(boost)

过拟合:一味地提高对训练数据的预测能力,导致模型复杂度比真模型高,对未知数据的预测能力差 (训练数据自身的、非全局的特性被学习器学到了,方差大)

判断:在训练集上效果好,但是在测试集上效果很差

原因:训练样本少、模型复杂度高、学习过度

解决:数据增强、正则化、交叉验证、dropout、早停、集成(bagging)、降维

6. 交叉验证是怎么做的?有几种方法?

留出法:训练集+测试集

S折交叉验证:S个相同大小的互斥子集,分别做一次验证集,结果取平均

留一法:每个子集中只有一个样本

7. 什么是正则化?为什么有用?奥卡姆剃刀?L1和L2范数为什么可以做正则化项?

正则化:模型复杂度的单调递增函数,用来权衡经验风险和模型复杂度

正则化是假设模型服从先验概率,为模型添加先验

奥卡姆剃刀:在所有可以选择的模型中,能够很好地解释已知数据并且简单的模型

L1正则:拉普拉斯先验,参数更新时使|w|≈0的参数向0靠近,将部分参数置为0,降低复杂度

L2正则:高斯先验,使得w变小加剧,而更小的参数意味着模型的复杂度更低

某一特征的权重过大时,容易依赖这个特征(L2正则可限制参数过大)

过拟合时,函数波动大、导数大、说明参数大(同上)

惩罚参数λ越大,表明先验分布协方差越小,偏差越大,模型越稳定。

即:加入正则项是在偏差bias与方差variance之间做平衡。

8. 什么是生成模型、判别模型?各有什么特点?

生成模型:由数据学习联合概率分布,然后求出条件概率分布作为预测的模型

朴素贝叶斯法、隐马尔可夫模型

特点:(1) 可以还原得到联合概率分布

(2) 收敛速度更快 (样本容量增加时,学到的模型更快地收敛于真实模型)

(3) 当存在隐变量时,仍可以使用生成方法学习,但不能使用判别方法

判别模型:由数据直接学习分类决策函数或条件概率分布作为预测的模型

Knn、SVM、LR、最大熵、感知机、决策树、提升方法、条件随机场

特点:(1) 直接学习条件概率分布或决策函数,准确率更高

(2) 可以对数据进行各种程度的抽象,定义特征并使用特征

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值