监督学习和模型评估与模型参数选择

一、监督学习

1、监督学习与非监督学习

(1)、非监督学习:如果数据集中样本点只包含了模型 的输入𝒙,那么就需要采用非监督 学习的算法。

(2)、监督学习:如果这些样本点以〈𝒙,𝒚〉这样的输入-输 出二元组的形式出现(有数据标签), 那么就可以采用监督学习的算法。包含回归和分类,回归问题的输出是连续值,分类问题的输出是离散值。

2、监督学习——回归

  (1)、回归问题在生活中非常常见,其最简单的形式是一个连续函数的拟合。
         一个购物网站想要计算出其在某个时期的 期收益,研究人员会将 相关因素如广告投放 量、网站流量、优惠力度等纳入自变量,根据现有数据拟合函数, 得到在未来某一时刻 的预测值。
        回归问题中通常使用 均方损失函数来作为度量模型效果的指标,最简单的求解例子是最小二乘法。
        均方误差损失函数(Mean Squared Error,MSE):
                • 最常用的回归问题的损失函数。其定义为预测值与真实值之间的平方差的平均值。
                • 该损失函数的值越小,表示模型的预测结果越接近真实值
 
        简单线性回归
                • 自变量 x 和因变量 y之间存在一条线性关系
        • 多元线性回归
                • 假设自变量 和因变量 y之间存在一条线性关系

3.监督学习——分类

(1)、想要预测(检测)的目标是猫,那么在数据集中猫为正样本 ( Positive ) , 其 他 狗 、 兔 子 、 狮 子 这 些 数 据 为 负 样 本 (Negative ) 将这只猫预测(分类)为狗、兔子、其他预测结果为错(False); 将这只猫预测为猫,预测结果为对(True)

(2)、将正样本预测正样本 (True Positive, TP) 将负类样本预测为正样 本(False Positive, FP) 将正样本预测为负样本(False Negative, FN) 将负类样本预测为负样 本(True Negative, TN)。

(3)、准确率Accuracy):对于测试集中D个样本,有k个被正 确分类,D-k个被错误分类,则准确率为: 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 = 分类正确的样本 \样本总数 = 𝑘 \𝐷 = (𝑇𝑃+𝑇𝑁)\ (𝑇𝑃+𝑇𝑁+𝐹𝑃+𝐹𝑁)

(4)、精确率(查准率)- Precision:所有被预测为正样本中实际为 正样本的概率 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 预测为正样本实际也为正样本\ 预测为正样本 = 𝑇𝑃 \(𝑇𝑃 +𝐹𝑃)

(5)、召回率(查全率)- Recall:实际为正样本中被预测为正样 本的概率 𝑅𝑒𝑐𝑎𝑙𝑙 = 预测为正样本实际也为正样本 实际为正样本 = 𝑇𝑃\( 𝑇𝑃 +𝐹N)

(6)、把精确率(Precision)和召回率(Recall)之 间的关系用图来表达,就是下PR曲线

二、模型评估与模型参数选择


 

(1)、过拟合: 将训练样本自身的一些特点当作所 有样本潜在的泛化特点。
表现: 在训练集上表现很好,在测试集上表
现不好。
过拟合的原因:
训练数据太少(比如只有几百组)
模型的复杂度太高(比如隐藏层层数设置的过多,神
经元的数量设置的过大)
数据不纯
(2)、为了选择效果最佳的模型,防止过拟合的问题,通常可以采取的方法有:
- 移除特征,降低模型的复杂度:减少神经元的个数,
减少隐藏层的层数
- 训练集增加更多的数据
- 重新清洗数据
- 数据增强
- 正则化
早停
(3)、 欠拟合:还没训练好。
1. 欠拟合的原因: 1. 数据未做归一化处理 2. 神经网络拟合能力不足 3. 数据的特征项不够
2. 解决方法: 1. 寻找最优的权重初始化方案 2. 增加网络层数、epoch 3. 使用适当的激活函数、优化器和学习率 4. 减少正则化参数 5. 增加特征
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值