自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

原创 数据挖掘学习小组:Task5.模型融合

Task5.模型融合 把个体学习器结合在一起的时候使用的方法叫结合策略。 Stacking 什么是stacking: stacking 就是当用初始训练数据学习出若干个基学习器后,将这几个学习器的预测结果作为新的训练集,来学习一个新的学习器。 算法示意图 引用自 西瓜书《机器学习》 Stacking有时对于如果训练集和测试集分布不那么一致的情况下是有一点问题的,其问题在于用初...

2020-04-03 16:59:19 278

原创 数据挖掘学习小组:Task4.建模调参

Task4.建模调参 决策树算法原理(ID3, C4.5, CART分类树, CART回归树) ID3 1970年昆兰找到了用信息论中的熵来度量决策树的决策选择过程,昆兰把这个算法叫做ID3。 熵度量了事物的不确定性,越不确定的事物,熵就越大。 ID3算法思想:用信息增益最大的特征来建立决策树的当前节点。 决策树ID3算法的不足 ID3没考虑连续特征,比如长度,密度都是连续...

2020-04-01 01:00:10 407

原创 数据挖掘学习小组:Task3.特征工程

Task3.特征工程 对特征工程的痛苦早有耳闻,今天也来好好学习一下 特征工程目标 对于特征进行进一步分析,并对于数据进行处理 完成对于特征工程的分析,并对于数据进行一些图表或者文字总结并打卡。 内容介绍 常见的特征工程包括: 异常处理: 通过箱线图(或 3-Sigma)分析删除异常值; BOX-COX 转换(处理有偏分布); 长尾截断; 特征归一化/标准化: 标准化(转换为标准...

2020-03-28 13:58:03 879

原创 数据挖掘学习小组:Task2.数据分析

Task2.数据分析 EDA(探索性数据分析) 探索性数据分析(Exploratory Data Analysis,简称EDA),是指对已有的数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法。特别是当我们对面对大数据时代到来的时候,各种杂乱的“脏数据”,往往不知所措,不知道从哪里开始了解目前拿到手上...

2020-03-24 19:47:16 695

原创 数据挖掘学习小组:Task1 赛题理解

文章目录Task1.赛题理解机器学习性能评估指标 Task1.赛题理解 机器学习性能评估指标 准确率(accuracy) = 预测对的/所有 = (TP+TN)/(TP+FN+FP+TN) 精确率(precision) = TP/(TP+FP) 召回率(recall) = TP/(TP+FN) = TP/P = Sensitive AUC:全称是Area under the Curve of ...

2020-03-22 22:29:10 180

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除