数据挖掘
liym0706
这个作者很懒,什么都没留下…
展开
-
综合实训周报八
目录标题理论学习实践学习 理论学习 本周了解了数据集中的信息,大致知道每列数据的大致意思和作用,发现大多数信息都丢失严重,并且不是很好填补缺失值,故决定将大多数数据都直接丢弃不用。 此外还上网查找了相关的资料,还是主要学习了如何选择参数,以及在填补缺失值方面有什么比较好的借鉴资料,不过收获较少。 实践学习 本周只是初步的处理数据,还没有进行正式的提交。 主要是删除了一些数据集。 有一些是缺失值太多舍弃。 drop = ['enttypeitem', 'opto', 'empnum', 'compform',原创 2020-11-17 00:13:16 · 158 阅读 · 0 评论 -
综合实训周报七
目录标题理论学习实践学习 理论学习 本次理论学习重点在于重新回顾并梳理了这次学习赛的流程,并总结了数据挖掘的一般过程与常见手法。为之后进一步的学习打好基础。 本次赛题可分为赛题理解、数据分析、特征工程、建模调参、模型融合等几个过程。其中我把重点放在了特征值的选择上。如何对数据进行处理已经选择合适的特征值是比较重点在意的地方,其次是选择合适的模型进行分析。 另外,我也了解了模型融合这一部分的内容。模型融合可以更好地提高准确率,往往是在数据挖掘收尾时使用。将之前建模调参的结果进行模型融合, 尝试多种融合方案,提原创 2020-11-11 13:13:39 · 134 阅读 · 0 评论 -
综合实训周报六
目录标题理论学习实践学习 理论学习 本周主要是在之前已经了解了许多相关模型和算法的基础之下,进一步学习不同的模型对比与性能评估。 逻辑回归。其优点在于训练速度较快,分类的时候,计算量仅仅只和特征的数目相关;简单易理解,模型的可解释性非常好,从特征的权重可以看到不同的特征对最后结果的影响;适合二分类问题,不需要缩放输入特征;内存资源占用小,只需要存储各个维度的特征值。 决策树模型。其优点在于简单直观,生成的决策树可以可视化展示;数据不需要预处理,不需要归一化,不需要处理缺失数据;既可以处理离散值,也可以处理连原创 2020-11-03 09:51:08 · 205 阅读 · 1 评论 -
综合实训周报五
目录标题理论学习实践学习 理论学习 本周则继续学习在金融分控领域常用的机器学习模型,并学习机器学习模型的建模过程与调参流程。 其中本周重点是学习了如何对模型进行调参,详细料及了贪心调参、网格搜索调参、贝叶斯调参这三种方法, 贪心调参先使用当前对模型影响最大的参数进行调优,达到当前参数下的模型最优化,再使用对模型影响次之的参数进行调优,如此下去,直到所有的参数调整完毕。这个方法的缺点就是可能会调到局部最优而不是全局最优,但是只需要一步一步的进行参数最优化调试即可,容易理解。 网格搜索,sklearn 提供Gr原创 2020-10-27 00:26:16 · 165 阅读 · 0 评论 -
综合实训周报四
目录标题理论学习实践学习 理论学习 本周的理论学习主要是学习了几大经典的机器学习算法。包括但不限于随机森林算法,GB算法,降维算法等。 随机森林是最流行和最强大的机器学习算法之一。它是 Bootstrap Aggregation(又称 bagging)集成机器学习算法的一种。 bootstrap 是从数据样本中估算数量的一种强大的统计方法。例如平均数。你从数据中抽取大量样本,计算平均值,然后平均所有的平均值以便更好的估计真实的平均值。 bagging 使用相同的方法,但是它估计整个统计模型,最常见的是决策树原创 2020-10-20 09:28:23 · 219 阅读 · 0 评论 -
综合实训周报三
目录标题理论学习实践学习 理论学习 本周的理论学习主要学习了特征选择相关的知识。 特征选择技术可以精简掉无用的特征,以降低最终模型的复杂性,它的最终目的是得到一个简约模型,在不降低预测准确率或对预测准确率影响不大的情况下提高计算速度。特征选择不是为了减少训练时间(实际上,一些技术会增加总体训练时间),而是为了减少模型评分时间。 有如基于特征间的关系进行筛选,如方差选择法。 方差选择法中,先要计算各个特征的方差,然后根据设定的阈值,选择方差大于阈值的特征。 from sklearn.feature_selec原创 2020-10-12 13:38:17 · 156 阅读 · 0 评论 -
综合实训周报二
目录标题理论学习实践学习 理论学习 本周主要学习了数据挖掘中有关特征工程部分的知识。 特征工程(feature engineering)包括特征提取和特征选择两个方面。征提取广义上指的是一种变换, 将处于高维空间的样本通过映射或变换的方式转换到低维空间, 达到降维的目的; 特征选择指从一组特征中去除冗余或不相关的特征来降维。 实践学习 ...原创 2020-10-05 23:58:11 · 244 阅读 · 0 评论 -
综合实训周报一
目录标题理论学习实践学习 理论学习 本周的理论学习主要在于学习数据挖掘相关的知识,由于本人之前并没有上过《数据挖掘导论》这门课程,导致有许多的知识点都并不了解。所以本周的主要任务就是将数据挖掘大概流程,所需要用到的知识大致的过了一遍。 实践学习 实践学习本周主要是将该练习赛的内容看了一遍,了解了比赛相关的学习资料。 之后尝试进行相应操作,主要是进行数据预处理环节。由于题目中所给出的数据维度较多,需要进行对相应数据的筛选,剔除掉一些一些与因变量相关关系不强的自变量。如何选择合适的自变量主要凭自己的直观感受,以原创 2020-09-29 09:37:27 · 232 阅读 · 0 评论