书籍阅读笔记
文章平均质量分 95
还重名就过分了啊
混子。
展开
-
【机器学习竞赛+笔记干货】工业蒸汽量预测:模型融合篇(七)
一般可以从以下几方面进行优化:- 研究模型学习曲线,判断模型是否过拟合或者欠拟合并做出相应的调整。- 对模型权重参数进行分析,对于权重绝对值高或低的特征,可以进行更细化的操作,也可以进行特征组合。- 进行Bad-Case分析,针对错误的例子确定是否还有地方可以修改挖掘。- 进行模型融合。原创 2023-11-19 00:07:52 · 645 阅读 · 0 评论 -
【机器学习竞赛+笔记干货】工业蒸汽量预测:特征优化篇(六)
在决策树系列算法中,由于每一个样本都会被映射到决策树的一片叶子上,因此我们可以把样本经过每一棵决策树映射后的index(自然数)或one-hot-vector(哑编码得到的稀疏矢量)作为一项新的特征加入模型中。要为分桶特征定义特征列,则可以使用bucketized_column(而非numeric_column),该列将数字列作为输入并使用boundaries参数中指定的分桶边界,将其转换为分桶特征。分桶特征:以一定方式将连续型数值划分到不同的桶(箱)中,可以理解为是对连续型特征的一种离散化处理方式。原创 2023-11-16 07:10:06 · 192 阅读 · 1 评论 -
【机器学习竞赛+笔记干货】工业蒸汽量预测:模型验证篇(五)
K折交叉验证(K-Fold Cross Validation)是将原始数据分为K组,然后每个子集数据分别做一次验证集,其余K-1组子集数据作为训练集,得到K个模型,将K个模型最终的验证集的分类准确率取平均值,作为K折交叉验证分类器的性能指标。有关时间序列的样本切分必须保证时间上的顺序性,不能用未来的数据去验证现在数据的正确性,只能用时间上之前一段的数据建模,而用后一段时间的数据来验证模型预测的效果。验证曲线的横轴为某个超参数的一系列值,由此比较不同参数设置下(而非不同训练集大小)模型的准确率。原创 2023-11-16 07:08:30 · 260 阅读 · 1 评论 -
【机器学习竞赛+笔记干货】工业蒸汽量预测:模型训练篇(四)
通过找出某个样本的k个最近邻居,将这些邻居的某个属性的平均值付给该样本。根据一定准则,将一个空间划分为若干个子空间,然后利用子空间内所有点的信息表示这个子空间的值。划分的点在空间中有近似的分布和值的相似性,利用这些划分区域的均值或者中位数代表这个区域的预测值。原创 2023-11-16 07:05:34 · 153 阅读 · 1 评论 -
【机器学习竞赛+笔记干货】工业蒸汽量预测:特征工程篇(三)
映射函数直接将不重要的特征删除,不过这样会造成特征信息的丢失,不利于模型精度。数据分析以抓住主要影响因子为主,变量越少越有利于分析。特征选择常用于统计分析模型中,以及超高维数据分析或者建模预处理中,例如基因序列建模。原创 2023-11-16 07:03:49 · 444 阅读 · 1 评论 -
【机器学习竞赛+笔记干货】工业蒸汽量预测:数据探索篇(二)
个人学习笔记,干货满满,模块化代码,可直接复用。原创 2023-11-16 07:00:20 · 287 阅读 · 1 评论 -
【机器学习竞赛+笔记干货】工业蒸汽量预测:赛题理解篇(一)
导读部分,简要介绍了阿里云天池工业蒸汽量预测赛题,并附链接。原创 2023-11-16 06:52:36 · 166 阅读 · 1 评论