机器学习
文章平均质量分 95
银晗
这个作者很懒,什么都没留下…
展开
-
集成学习&随机森林
随机森林和集成学习的其他算法的小总结原创 2023-04-27 16:45:35 · 820 阅读 · 0 评论 -
LightGBM
LightGBM是XGBoost的优化。提出算法的原因:GBDT在每一次迭代的时候,都需要遍历整个训练数据多次。如果把整个训练数据装进内存则会限制训练数据的大小;如果不装进内存,反复地读写训练数据又会消耗非常大的时间。尤其面对工业级海量的数据,普通的GBDT算法是不能满足其需求的。原创 2023-04-27 11:51:57 · 1239 阅读 · 1 评论 -
XGBoost学习总结
首先,XGB中的树的数量决定了模型的学习能力,树的数量越多,模型的学习能力越强。只要XGB中树的数量足够了,即便只有很少的数据, 模型也能够学到训练数据100%的信息,所以XGB也是天生过拟合的模型。但在这种情况下,模型会变得非常不稳定。第二,XGB中树的数量很少的时候,对模型的影响较大,当树的数量已经很多的时候,对模型的影响比较小,只能有微弱的变化。当数据本身就处于过拟合的时候,再使用过多的树能达到的效果甚微,反而浪费计算资源。原创 2023-04-27 11:51:54 · 557 阅读 · 0 评论 -
数据挖掘学习
数据挖掘的定义:从大量的数据中挖掘那些令人感兴趣的、有用的、隐含的、先前未知的和可能有用的模式或者知识就是组成数据集的元素(例如excel表格里的一个单元格),数据格式:样本、数据点、元组等定义:代表数据对象特征的一个字段。也称为维、特征、变量(同义词)定类型:可以标记或分类为变量内互斥类别的数据二值型数值型:离散/连续。原创 2022-09-21 22:47:37 · 2514 阅读 · 3 评论 -
时间序列 - 论文笔记本
关于时间序列,我的一点学习和阅读论文的笔记原创 2022-09-11 15:39:38 · 1624 阅读 · 0 评论 -
机器学习-数据预处理
拿到数据的第一步,判断是否存在缺失数据,以及字段的缺失值占比缺失率:用shape()和count()函数做差得到数据的缺失值个数,再除以样本总个数定性:df.info:查看总体数据,对比一下就知道哪里少了LossRate=all.shpae[0]all.shape[0]−loss[column]。原创 2022-09-07 16:58:25 · 636 阅读 · 2 评论