特征工程
J-JunLiang
一个热爱挖掘的数据从业者,勤学好问、动手达人,公仔厂的一位码农,期待与大家一起交流探讨机器学习相关内容~
展开
-
特征工程系列:自动化特征构造
特征工程系列:自动化特征构造原创:JunLiang木东居士今天0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。那特征工程是什么?特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。特征工程又包含了 D...原创 2019-12-09 19:43:55 · 1459 阅读 · 0 评论 -
特征工程系列:空间特征构造以及文本特征构造
原创:JunLiang木东居士特征工程系列:空间特征构造以及文本特征构造本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应...原创 2019-12-01 17:14:11 · 1379 阅读 · 0 评论 -
特征工程系列:时间特征构造以及时间序列特征构造
特征工程系列:时间特征构造以及时间序列特征构造原创:JunLiang木东居士0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。那特征工程是什么?特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。特征工...原创 2019-11-16 17:22:38 · 5543 阅读 · 5 评论 -
评分卡模型中的IV和WOE详解
1.IV的用途IV的全称是InformationValue,中文意思是信息价值,或者信息量。我们在用逻辑回归、决策树等模型方法构建分类模型时,经常需要对自变量进行筛选。比如我们有200个候选自变量,通常情况下,不会直接把200个变量直接放到模型中去进行拟合训练,而是会用一些方法,从这200个自变量中挑选一些出来,放进模型,形成入模变量列表。那么我们怎么去挑选入模变量呢?挑...转载 2019-11-08 11:27:27 · 1480 阅读 · 0 评论 -
特征工程系列:GBDT特征构造以及聚类特征构造
特征工程系列:GBDT特征构造以及聚类特征构造原创:JunLiang木东居士4天前特征工程系列:GBDT特征构造以及聚类特征构造本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。...原创 2019-10-29 14:26:03 · 1044 阅读 · 0 评论 -
特征工程系列:笛卡尔乘积特征构造以及遗传编程特征构造
原创:JunLiang木东居士1周前特征工程系列:笛卡尔乘积特征构造以及遗传编程特征构造本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要...原创 2019-10-21 13:14:32 · 2088 阅读 · 0 评论 -
特征工程系列:聚合特征构造以及转换特征构造
原创:JunLiang木东居士1周前特征工程系列:聚合特征构造以及转换特征构造本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在...原创 2019-10-21 13:12:51 · 1463 阅读 · 0 评论 -
特征工程系列:特征构造之概览篇
原创:JunLiang木东居士1周前特征工程系列:特征构造之概览篇本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中...原创 2019-10-09 12:57:21 · 470 阅读 · 0 评论 -
特征工程系列:特征预处理(下)
特征工程系列:特征预处理(下)原创:JunLiang木东居士昨天特征工程系列:特征预处理(下)本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据预处理包含数据探索、数据清洗和特征预处理三部分,《特征工程系列:特征预处理(上)》介绍了无量纲化...原创 2019-08-13 11:38:39 · 632 阅读 · 0 评论 -
特征工程系列:特征预处理(上)
特征工程系列:特征预处理(上)原创:JunLiang木东居士6天前特征工程系列:特征预处理(上)关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机...原创 2019-08-13 11:37:07 · 885 阅读 · 0 评论 -
对于特征离散化,特征交叉,连续特征离散化非常经典的解释
一.互联网广告特征工程博文《互联网广告综述之点击率系统》论述了互联网广告的点击率系统,可以看到,其中的logistic regression模型是比较简单而且实用的,其训练方法虽然有多种,但目标是一致的,训练结果对效果的影响是比较大,但是训练方法本身,对效果的影响却不是决定性的,因为训练的是每个特征的权重,权重细微的差别不会引起ctr的巨大变化。在训练方法确定后,对ctr预估起到决定性作用的...转载 2019-08-20 20:45:39 · 872 阅读 · 0 评论 -
特征工程系列:数据清洗
特征工程系列:数据清洗原创:JunLiang 木东居士前天特征工程系列:数据清洗本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地...原创 2019-08-02 19:14:54 · 1286 阅读 · 0 评论 -
特征工程系列:特征筛选的原理与实现(下)
原创:JunLiang木东居士今天本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言我们在《特征工程系列:特征筛选的原理与实现(上)》中介绍了特征选择的分类,并详细介绍了过滤式特征筛选的原理与实现。本篇继续介绍封装式和嵌入式特征筛选的原理与实现。0...原创 2019-07-19 14:37:18 · 675 阅读 · 0 评论 -
特征工程系列:特征筛选的原理与实现(上)
本文为数据茶水间群友原创,经授权在本公众号发表。关于作者:JunLiang,一个热爱挖掘的数据从业者,勤学好问、动手达人,期待与大家一起交流探讨机器学习相关内容~0x00 前言数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。由此可见,特征工程在机器学习中占有相当重要的地位。在实际应用当中,可以说特征工程是机器学习成功的关键。那特征工程是什么?特征工程是利用数...原创 2019-07-18 21:35:01 · 801 阅读 · 0 评论