机器学习笔记 2

第二章 机器学习基本方法

模型评估与模型参数选择

(一)、数据集:1.训练集、2.验证集、3.测试集

误差:预测输出^y与真实输出y之间的差异;
• 经验误差、训练误差:在训练集上的误差;
• 泛化误差:在新样本上的误差。
• 泛化误差越小越好,经验误差不一定越小越好,可能导致过拟合。

3种数据集之间的关系:
•训练集相当于上课学知识
•验证集相当于课后的的练习题,用来纠正和强化学到的知识
•测试集相当于期末考试,用来最终评估学习效果。

1、训练集:训练集是机器学习过程中不可或缺的一部分,它为模型提供了学习和改进的基础。通过合理地选择和使用训练集,可以有效地提升模型的性能和应用效果。

2、验证集:验证集有2个主要的作用:a.评估模型效果,为了调整超参数而服务
                b.调整超参数,使得模型在验证集上的效果最好
说明:a.验证集不像训练集和测试集,它是非必需的。如果不需要调整超参数,就可以不使用验证集,直接用测试集来评估效果。
        b.验证集评估出来的效果并非模型的最终效果,主要是用来调整超参数的,模型最终效果以测试集的评估结果为准。

3、测试集:通过测试集的评估,我们会得到一些最终的评估指标,例如:
准确率、精确率、召回率、F1等。

4、 划分数据集

5、过拟合:将训练样本自身的一些特点当作所有样本潜在的泛化特点。
6、表现:在训练集上表现很好,在测试集上表现不好。
7、过拟合的原因:a.训练数据太少(比如只有几百组)
        b.模型的复杂度太高(比如隐藏层层数设置的过多,神经元的数量设置的过大)
        c.数据不纯

8、为了选择效果最佳的模型,防止过拟合的问题,通常可以采取的方法有:
        a.移除特征,降低模型的复杂度:减少神经元的个数,减少隐藏层的层数
        b.训练集增加更多的数据
        c.重新清洗数据
        d.数据增强
        e.正则化
        f.早停

9、欠拟合:还没训练好。
(1)、 欠拟合的原因: a.数据未做归一化处理
                                        b.神经网络拟合能力不足
                                        c.数据的特征项不够
 (2)、解决方法:a.寻找最优的权重初始化方案
                                b.增加网络层数、epoch
                                c.使用适当的激活函数、优化器和学习率
                                d.减少正则化参数
                                 e.增加特征

第3章 机器学习基本方法

监督学习

监督学习与非监督学习

监督学习 

1、监督学习——回归

(1)、回归问题在生活中非常常见,其最简单的形式是一个连续函数的拟合。

(2)、回归问题中通常使用均方损失函数来作为度量模型效果的指标,最简单的求解例子是最小二乘法。

(3)、简单线性回归:自变量 x 和因变量 y之间存在一条线性关系:


(4)、多元线性回归:假设自变量 和因变量 y之间存在一条线性关系:                 ​​​​​​​        ​​​​​​​        ​​​​​​​

 (5)、线性回归可以预测的场景:a.预测房价、b.预测销售额、

2、监督学习——分类

 准确率(Accuracy):对于测试集中D个样本,有k个被正确分类,D-k个被错误分类,则准确率为:
 

 精确率(查准率)- Precision:所有被预测为正样本中实际为正样本的概率

精准率代表对正样本结果中的预测准确程度。
准确率则代表整体的预测准确程度,既包括正样本,也包括负样本。

召回率(查全率)- Recall:实际为正样本中被预测为正样本的概率

召回率的应用场景:
比如拿网贷违约率为例,相对好用户,我们更关心坏用户,不能错放过任何一个坏用户。因为如果我们过多的将坏用户当成好用户,这样后续可能发生的违约金额会远超过好用户偿还的借贷利息金额,造成严重偿失。
召回率越高,代表实际坏用户被预测出来的概率越高,它的含义类似:宁可错杀一千,绝不放过一个。
召回率越高,也代表网络可以改进的空间越大。 

总结

a.监督学习与非监督学习主要针对数据集定义。
b.有监督数据集需要人工标注,成本较为昂贵,但是在训练模型时往往能够保障效果。
c.无监督数据集一般不需要过多人工操作,可以通过爬虫等方式自动大量获得。

d.由于没有监督信息的约束,需要设计巧妙的学习算法才能有效利用无监督数据集训练模型,不过大量廉价数据可以从另一个方面提高模型性能。
e.模型评估需要根据模型的训练历史判断模型是否处于欠拟合或过拟合状态。尽管有一定的规律作为指导,而且有一些工具可以辅助分析,但是模型的评估过程一般需要较为丰富的经验。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值