- 博客(5)
- 收藏
- 关注
原创 数据挖掘学习小组:Task5.模型融合
Task5.模型融合 把个体学习器结合在一起的时候使用的方法叫结合策略。 Stacking 什么是stacking: stacking 就是当用初始训练数据学习出若干个基学习器后,将这几个学习器的预测结果作为新的训练集,来学习一个新的学习器。 算法示意图 引用自 西瓜书《机器学习》 Stacking有时对于如果训练集和测试集分布不那么一致的情况下是有一点问题的,其问题在于用初...
2020-04-03 16:59:19 278
原创 数据挖掘学习小组:Task4.建模调参
Task4.建模调参 决策树算法原理(ID3, C4.5, CART分类树, CART回归树) ID3 1970年昆兰找到了用信息论中的熵来度量决策树的决策选择过程,昆兰把这个算法叫做ID3。 熵度量了事物的不确定性,越不确定的事物,熵就越大。 ID3算法思想:用信息增益最大的特征来建立决策树的当前节点。 决策树ID3算法的不足 ID3没考虑连续特征,比如长度,密度都是连续...
2020-04-01 01:00:10 407
原创 数据挖掘学习小组:Task3.特征工程
Task3.特征工程 对特征工程的痛苦早有耳闻,今天也来好好学习一下 特征工程目标 对于特征进行进一步分析,并对于数据进行处理 完成对于特征工程的分析,并对于数据进行一些图表或者文字总结并打卡。 内容介绍 常见的特征工程包括: 异常处理: 通过箱线图(或 3-Sigma)分析删除异常值; BOX-COX 转换(处理有偏分布); 长尾截断; 特征归一化/标准化: 标准化(转换为标准...
2020-03-28 13:58:03 879
原创 数据挖掘学习小组:Task2.数据分析
Task2.数据分析 EDA(探索性数据分析) 探索性数据分析(Exploratory Data Analysis,简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是当我们对面对大数据时代到来的时候,各种杂乱的“脏数据”,往往不知所措,不知道从哪里开始了解目前拿到手上...
2020-03-24 19:47:16 695
原创 数据挖掘学习小组:Task1 赛题理解
文章目录Task1.赛题理解机器学习性能评估指标 Task1.赛题理解 机器学习性能评估指标 准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN) 精确率(precision) = TP/(TP+FP) 召回率(recall) = TP/(TP+FN) = TP/P = Sensitive AUC:全称是Area under the Curve of ...
2020-03-22 22:29:10 180
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人