竞赛
文章平均质量分 90
请叫我哈士奇
这个作者很懒,什么都没留下…
展开
-
Competition09-时间序列
1 时间序列1.1 简单定义时间序列是按时间顺序索引的一系列数据点。一般基于如下假设:数据文件中标签的值表示以等间隔时间进行的连续测量值。假设数据存在相关性,然后通过建模找到对应的相关性,并利用它进行预测未来的数据走向。1.2 常见问题从变量变量角度,可以分为单变量时间序列和多变量时间序列单变量时间序列指仅具有的单个时间相关变量,所以仅受时间因素的影响。可能受到相关性、趋势性、周期性和循环性等因素的影响。一般该类问题可以看做是多变量时间序列的一部分。多变量时间序列具有多个时间相关变原创 2022-04-08 16:01:10 · 1008 阅读 · 0 评论 -
Competition08-竞赛实战案例-用户画像类
竞赛实战案例-用户画像类一、数据探索仔细查看每个数据的基本含义,打印出数据,看看是什么样子的校验数据的正确性,缺失情查看数据的分布的时候,除了看训练集和测试集的分布是否相似,还要看target的分布情况(describe)查看数据的时候 需要看看是否有重复数据 nunique()针对属性信息的字段的离散和连续性,分开后统一分析。注意不是是数值的就是连续的,要看实际情况。1)离散型(还分为数值型和非数值型)**针对object类,**离散性变量一般要么是两个,要么是含有原创 2022-04-08 16:00:20 · 298 阅读 · 0 评论 -
Competition06-模型融合
模型融合模型融合,也叫做集成学习,将不同模型的优点进行结合。下面介绍了怎么产生有差异性的模型,然后介绍两种模型融合的方式:1. 构建多样性多样性是指子模型之间存在差异,可以通过降低子模型的同质性来构建多样性。1.1 特征多样性构建多个有差异的特征集并分别进行建模,可以使特征存在不同的超空间,从而使多个模型有不同的泛化能力。实践中,不同队友之间的特征集往往是不一样的,直接进行模型融合一般会有一定提升。随机森林、XGBoost和LightGBM这三个里面都有参数可以设置,其实就是构建特征的多样性。原创 2022-04-08 15:59:24 · 1112 阅读 · 0 评论