数据挖掘
文章平均质量分 81
梦彷徨
这个作者很懒,什么都没留下…
展开
-
Datawhale 零基础入门数据挖掘-Task5 模型融合
Datawhale 零基础入门数据挖掘-Task5 模型融合 模型融合是比赛后期一个重要的环节,大体来说有如下的类型方式。 简单加权融合: 回归(分类概率):算术平均融合(Arithmetic mean),几何平均融合(Geometric mean); 分类:投票(Voting)综合: 排序融合(Rank averaging),log融合 stacking/blending: 构建多层模型,并利...原创 2020-04-04 21:02:47 · 153 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘-Task4 建模调参
Datawhale 零基础入门数据挖掘-Task4 建模调参 一.内容介绍 线性回归模型: 线性回归对于特征的要求; 处理长尾分布; 理解线性回归模型; 模型性能验证: 评价函数与目标函数; 交叉验证方法; 留一验证方法; 针对时间序列问题的验证; 绘制学习率曲线; 绘制验证曲线; 嵌入式特征选择: Lasso回归; Ridge回归; 决策树; 模型对比: 常用线性模型; 常用非线性模型; 模型...原创 2020-04-01 18:19:51 · 112 阅读 · 0 评论 -
二手车交易价格预测_Task3
特征工程 1.理解 特征工程的主要目的还是在于将数据转换为能更好地表示潜在问题的特征,从而提高机器学习的性能。比如,异常值处理是为了去除噪声,填补缺失值可以加入先验知识等。 特征构造也属于特征工程的一部分,其目的是为了增强数据的表达。有些比赛的特征是匿名特征,这导致我们并不清楚特征相互直接的关联性,这时我们就只有单纯基于特征进行处理,比如装箱,groupby,agg 等这样一些操作进行一些特征统计...原创 2020-03-28 08:44:55 · 133 阅读 · 0 评论 -
Datawhale 零基础入门数据挖掘Task2
Datawhale 零基础入门数据挖掘Task2 第一步引入库,注意 #导入warnings包,利用过滤器来实现忽略警告语句。 import warnings warnings.filterwarnings('ignore') 第二步观察一下数据 describe种有每列的统计量,个数count、平均值mean、方差std、最小值min、中位数25% 50% 75% 、以及最大值 看这个信息主要是...原创 2020-03-24 20:10:27 · 128 阅读 · 0 评论 -
python 学习matplotlib
matplotlib(条形图) 由于matplotlib对中文的支持并不是很友好,所以需要提前对绘图进行字体的设置,即通过rcParams来设置字体,这里将字体设置为微软雅黑,同时为了避免坐标轴不能正常的显示负号,也需要进行设置; # 中文乱码的处理 plt.rcParams['font.sans-serif'] =['Microsoft YaHei'] plt.rcParams['axes.un...原创 2020-03-21 19:05:11 · 180 阅读 · 0 评论