机器学习
文章平均质量分 54
机器学习知识点
fly_jx
这个作者很懒,什么都没留下…
展开
-
机器学习:正则化
正则化1:为什么需要正则化在深度学习过程中容易出现过拟合的情况,就是模型在训练集上得到完全拟合,在测试集上效果很差。过拟合产生的原因是模型把数据样本的噪声或特性当作一般样本的共有特性拟合了(高方差)解决过拟合的方法有很多,比如减少迭代次数,使用dropout,数据清洗等,正则化也是一种解决过拟合,提高模型泛化性的方法。2:什么是正则化正则化是在训练过程中给训练的损失增加一个正则项惩罚,约束系数的解,降低系数的值。正则化一般分为L1和L2正则,也叫L1范数,L2范数。L1正则化的原则是样本特原创 2022-04-18 20:57:32 · 1427 阅读 · 0 评论 -
数据不平衡解决方法
数据不平衡的解决方法1:什么是数据不平衡以二分类举例,数据不平衡是指数据集中正类和负类的比例严重失调,比如正:负为9:1。数据不平衡会导致模型学习偏差,模型会倾向于学习比例高的数据特征,对比例低的数据只学习到很少的特征。在真实的业务场景中,比如地震预测,地震发生的样例和地震不发生的样例比例失衡,如果模型倾向于预测地震不发生,就会出现模型误判地震发生为不发生的情况,这是不能容忍的,因此解决数据不平衡问题很重要。2 解决方法2.1 数据方面上采样:增加少类样本下采样:抛弃部分大类样本2.2 模型原创 2022-04-13 20:50:03 · 3315 阅读 · 0 评论 -
Normalization
机器学习中Normalization1:为什么需要Normalization神经网络训练开始前,都要对输入数据进行归一化处理,那么为什么需要归一化?归一化后有什么好处呢?机器学习有个很重要的假设: IID独立同分布,就是假设训练数据和测试数据是满足相同分布的。因此在数据喂给模型之前,进行“白化”,其中最典型的白化方法是PCA。白化一般包含两个步骤:1:去除特征之间的相关性:独立2:使得所有特征具有相同的均值和方差:同分布每批数据的分布各不相同,就是导致模型会去拟合各个不同的分布,降低收敛速度。原创 2022-04-13 15:13:59 · 109 阅读 · 0 评论