特征工程
文章平均质量分 78
Michael_Shentu
感兴趣方向:分布式计算与存储,广告计算学,分布式数据挖掘与机器学习,Hadoop,Spark,HBase
展开
-
特征工程在实际广告点击预估系统中使用介绍
互联网广告综述之点击率特征工程一.互联网广告特征工程在互联网广告投放系统中,利用LR等模型进行用户对于投放广告的点击率预估,其中的logistic regression模型是比较简单而且实用的,其训练方法虽然有多种,但目标是一致的,训练结果对效果的影响是比较大,但是训练方法本身,对效果的影响却不是决定性的,因为训练的是每个特征的权重,权重细微的差别不会引起ctr的巨大变原创 2015-10-26 20:15:06 · 1515 阅读 · 0 评论 -
关于ROC AUC指标的详细介绍说明
转发一篇对于ROC AUC 解释比较通俗明了的文章:ROC(Receiver Operating Characteristic)曲线和AUC常被用来评价一个二值分类器(binary classifier)的优劣,对两者的简单介绍见这里。这篇博文简单介绍ROC和AUC的特点,以及更为深入地,讨论如何作出ROC曲线图以及计算AUC。ROC曲线需要提前说明的是,我们转载 2017-01-16 16:57:09 · 5276 阅读 · 0 评论 -
mllib下决策树——连续特征与离散特征的split与bin的确定
决策树算法本身可以处理连续特征与离散特征,主要是因为在节点进行split分裂的时候,需要对连续特征与离散特征进行基于信息增益或者基尼系数等规则的切分,因此结合spark中mllib中决策树算法对于这两类特征的处理,在多分类与二分类或者回归的场景下,连续特征,离散特征如何来确定split与bin数量,从而保证后面进行最优split点确定。类别特征(离散特征):离散特征分为原创 2017-02-28 17:02:31 · 5060 阅读 · 2 评论 -
正则化方法:L1和L2 regularization、数据集扩增、dropout
正则化方法:防止过拟合,提高泛化能力在训练数据不够多时,或者overtraining时,常常会导致overfitting(过拟合)。其直观的表现如下图所示,随着训练过程的进行,模型复杂度增加,在training data上的error渐渐减小,但是在验证集上的error却反而渐渐增大——因为训练出来的网络过拟合了训练集,对训练集外的数据却不work。为了防止overfitt转载 2017-05-14 23:55:08 · 621 阅读 · 0 评论 -
连续特征的离散化的意义
连续特征的离散化:在什么情况下将连续的特征离散化之后可以获得更好的效果?Q:CTR预估,发现CTR预估一般都是用LR,而且特征都是离散的。为什么一定要用离散特征呢?这样做的好处在哪里?A:在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:0、 离散特征的增加和减少都很容易,易于模型的原创 2017-05-21 18:09:33 · 5587 阅读 · 0 评论 -
数据分析脚本&分析特征跟label的关系&缺失特征&缺失交叉特征&相关性热图
https://www.kaggle.com/dollardollar/bosch-production-line-performance/eda-of-important-features/comments说明:这个链接里,进行数据分析的脚本可以借鉴。有如下几个功能:1、分析特征跟label的关系2、分析,不同label的样本,其缺失的比例3、绘制相关性热图转载 2017-05-21 18:06:37 · 3216 阅读 · 0 评论 -
如何解决机器学习中的数据不平衡问题
这几年来,机器学习和数据挖掘非常火热,它们逐渐为世界带来实际价值。与此同时,越来越多的机器学习算法从学术界走向工业界,而在这个过程中会有很多困难。数据不平衡问题虽然不是最难的,但绝对是最重要的问题之一。一、数据不平衡在学术研究与教学中,很多算法都有一个基本假设,那就是数据分布是均匀的。当我们把这些算法直接应用于实际数据时,大多数情况下都无法取得理想的结果。因为实际数据往往分布得很不原创 2017-05-21 23:01:26 · 10018 阅读 · 1 评论 -
模型评估的方法: ROC,AUC,RMSE等指标
在别的地方看到了一篇有关总结模型评估的文章,感觉讲解还是挺有点内容的,转载过来 学习学习 分享下模型评估的方法一般情况来说,F1评分或者R平方(R-Squared value)等数值评分可以告诉我们训练的机器学习模型的好坏。也有其它许多度量方式来评估拟合模型。你应该猜出来,我将提出使用可视化的方法结合数值评分来更直观的评判机器学习模型。接下来的几个部分将分享原创 2017-05-22 14:38:08 · 32117 阅读 · 2 评论 -
ROC与AUC的定义与使用详解
分类模型评估:指标描述Scikit-learn函数Precision精准度from sklearn.metrics import precision_scoreRecall召回率from sklearn.metrics import recall_scoreF1F1值原创 2017-05-22 16:59:37 · 51848 阅读 · 11 评论 -
评分卡模型之特征工程中的BadRate单调与特征分箱之间的联系
Bad Rate:坏样本率,指的是将特征进行分箱之后,每个bin下的样本所统计得到的坏样本率bad rate 单调性与不同的特征场景:在评分卡模型中,对于比较严格的评分模型,会要求连续性变量和有序性的变量在经过分箱后需要保证bad rate的单调性。 1. 连续性变量: 在严格的评分卡模型中,对于连续型变量就需要满足分箱后 所有的bin的 bad ...原创 2018-09-03 16:55:34 · 8738 阅读 · 2 评论 -
评分卡模型之WOE编码与bad rate单调性关系
一般在评分卡模型中对于特征的编码,更多的采用WOE编码,而不是one-hot编码形式。原创 2018-07-05 09:52:29 · 96 阅读 · 0 评论 -
评分卡模型之多变量分析:相关性与多重共线性处理步骤
评分卡模型中对于特征的相关性与多重共线性问题比较关注,在特征经过WOE编码后,会进一步进行特征的单变量与多变量分析。在单变量分析中,我们可以通过检查变量的IV值,根据IV阈值来判定该变量是否该从特征体系中删除出去。在经过单变量分析后,我们还会进一步进行多变量分析,来检查特征之间的相关性与多重共线性问题,因为相关性与多重共线性问题的存在,可能会造成模型的过拟合问题。所有的单变量和多变量分析 都是针对...原创 2018-03-16 10:45:02 · 154 阅读 · 1 评论 -
回归结果的一般解释
一、参数解释:1、回归系数(coefficient)注意回归系数的正负要符合理论和实际。截距项的回归系数无论是否通过T检验都没有实际的经济意义。2、回归系数的标准误差(Std.Error)标准误差越大,回归系数的估计值越不可靠,这可以通过T值的计算公式可知3、T检验值(t-Statistic)T值检验回归系数是否等于某一特定值,在回归方程中这一特定值为0,因此T值=...原创 2018-03-26 17:38:19 · 148 阅读 · 1 评论 -
统计学上的P值的含义通俗
首先解释下“有统计学意义”和“显著差异” 两个概念:”有统计学意义"和"差异显著"是两个不同的概念,"差异显著"易给人一种误导,原来两概念在统计学中经常有点通用,现在明确地只能用“有统计学意义”。P<0.05是指假设H0(即两总体没区别)成立的可能性概率在5%以下,a就是允许犯Ⅰ类错误(拒绝了正确的无效假设H0)的概率,一般在做假设检验之前先定好,如果a=0.05,表示允许犯Ⅰ类错误的概率为...原创 2016-05-19 14:30:52 · 141136 阅读 · 1 评论 -
假设检验中的P值 与显著性水平的联系
假设检验是推断统计中的一项重要内容。用SAS、SPSS等专业统计软件进行假设检验,在假设检验中常见到P值( P-Value,Probability,Pr),P值是进行检验决策的另一个依据。P值即概率,反映某一事件发生的可能性大小。统计学根据显著性检验方法所得到的P 值,一般以P < 0.05 为显著, P<0.01 为非常显著,其含义是样本间的差异由抽样误差所致的概率小于0.05 或0...原创 2016-05-19 10:53:29 · 103566 阅读 · 1 评论 -
显著性水平 P值 概念解释
P是“拒绝原假设时犯错误概率”又或者说是“如果你拒绝掉原假设实际上是在冤枉好人的概率”。不管怎么表达理解上都有点绕,所以你还是看例子吧。比如你做一个假设( null hypothesis):你的女性朋友平均身高2米,输入你统计的样本数据后,计算机给你返回的p值是0.03。这意味着如果你拒绝“女性朋友平均身高2米”这个结论,犯错的概率是0.03,小于0.05(人们一般认为拒绝一句话时犯错概率小于0....原创 2017-12-11 17:10:49 · 37360 阅读 · 13 评论 -
共线性与过拟合的之间的区别分析
“过拟合”是把噪声的信息也学习进来了,导致泛化能力差,在新样本上表现差;“共线性”是自变量相关性太强,导致参数估计不可信,如果完全共线性则导致回归系数估计时系数矩阵的不可逆,使用迭代求解时不收敛,无法计算系数。例如线性回归时系数求解使用最小二乘法,系数估计beta=(XX’)^(-1) XY,如果两个变量相关,则XX’不可逆对于决策树算法,共线性与否其实没关系,极端例子,两个变量完全一样时,用哪个...原创 2018-07-05 10:23:05 · 63 阅读 · 0 评论 -
异常数据处理——箱型图分析原理
箱型图分析原理及Python例程一、箱型图分析原理箱型图可以通过程序设置一个识别异常值的标准,即大于或小于箱型图设定的上下界的数值则识别为异常值,箱型图如下图所示:首先我们定义下上四分位和下四分位:上四分位我们设为U,表示的是所有样本中只有1/4的数值大于U ,即从大到小排序时U处于25%处;同理,下四分位我们设为L,表示的是所有样本中只有1/4的数值小于L,即从大到小...原创 2018-09-13 12:41:59 · 8578 阅读 · 0 评论 -
核函数的理解一
首先给出官方核函数的定义,其定义如下(可参考统计学习方法):设X是输入空间(欧氏空间或离散集合),Η为特征空间(希尔伯特空间),如果存在一个从X到Η的映射φ(x): X→Η使得对所有的x,y∈X,函数Κ(x,y)=φ(x)∙φ(y),则称Κ(x,y)为核函数,φ(x)为映射函数,φ(x)∙φ(y)为x,y映射到特征空间上的内积。在该定义中,涉及到几个概念原创 2017-01-04 23:16:25 · 10625 阅读 · 1 评论 -
bagging与boosting两种集成模型的偏差bias以及方差variance 的理解
Bagging对样本重采样,对每一重采样得到的子样本集训练一个模型,最后取平均。由于子样本集的相似性以及使用的是同种模型,因此各模型有近似相等的bias和variance(事实上,各模型的分布也近似相同,但不独立)。由于,所以bagging后的bias和单个子模型的接近,一般来说不能显著降低bias。另一方面,若各子模型独立,则有,此时可以显著降低variance。若各子模型完全相同,则,此时不会原创 2016-12-27 14:03:25 · 13558 阅读 · 5 评论 -
特征选择方法之信息增益
本章主要讨论下特征生成中的 信息增益方法原创 2015-10-26 18:37:40 · 721 阅读 · 0 评论 -
特征选择与特征抽取
特征抽取和特征选择是DimensionalityReduction(降维)两种方法,但是这两个有相同点,也有不同点之处:1. 概念:特征抽取(Feature Extraction):Creatting a subset of new features by combinations of the exsiting features.也就是说,特征抽取后的新特征是原来特征的一个映原创 2016-01-21 15:53:50 · 21714 阅读 · 1 评论 -
样本筛选与特征处理
基于特征化工程进行用户特征化,结合相关的机器学习算法对业务进行挖掘建模,在广告的精准投放、预测、风控等领域中应用的非常广泛。无论是有监督的学习分类算法,还是无监督的聚类也罢,都需要建立特征向量,对特征进行预处理;其中对于有监督的训练时,还需要进行样本的筛选。本章节讲解一下样本选择和特征处理方面的一些方法技巧。在做样本训练前需要挑选样本,需要注意样本不平衡的问题,比如在定向广告预估点击率二元原创 2016-02-01 10:57:28 · 9780 阅读 · 1 评论 -
特征工程之类别特征 处理方法介绍
当类别特征仍保持原始形式时,其取值来自所有可能取值构成的集合而不是一个数字,故不能作为输入。当各个取值之间是没有顺序关系的并列关系,这样的类别特征称为 名义(nominal)变量。相反,那些存在顺序关系的(比如评级,评级5的会好于评级1的),则被称为 有序(ordinal)变量。将类别特征表示为数字形式,常可借助 1-of-k 这样的编码方法进行。假设变量的取值有 k 个,原创 2016-04-07 15:36:22 · 2691 阅读 · 0 评论 -
风控评分模型
一概述余额支付的风险识别模型分为两类:(1)盗号交易识别风险和(2)盗卡交易识别风险。其中盗卡交易识别风险和余额有关主要是由于骗子注册号码帮盗来的卡,然后进行充值到余额,通过余额支付销赃。(1)和(2)两种针对的情景不一样,采用的特征变量和变量的重要性很大程度是不一样的。针对(1)的问题,主要是看当前交易相对用户之前的行为是否存在异常。针对(2)的问题,主要看用户信息和绑卡的信息匹配原创 2016-04-08 09:59:14 · 19810 阅读 · 1 评论 -
One-Hot Encoding与类别特征处理
机器学习 数据预处理之独热编码(One-Hot Encoding)在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。例如,考虑一下的三个特征:["male", "female"]["from Europe", "from US", "from Asia"]["uses Firefox", "uses Chrome", "uses Safar原创 2016-04-08 16:55:59 · 6537 阅读 · 0 评论 -
连续特征进行离散化的方法介绍与应用例子
RT,尤其在logistic regression上,需要把一些连续特征进行离散化处理。离散化除了一些计算方面等等好处,还可以引入非线性特性,也可以很方便的做cross-feature。连续特征离散化处理有什么好的方法, 有时候为什么不直接归一化?这里主要说明监督的变换方法;连续性变量转化成离散型变量大致有两类方法:(1)卡方检验方法;(2)信息原创 2016-04-08 17:07:34 · 13915 阅读 · 1 评论 -
特征工程之连续特征与离散特征处理方法介绍
下面一篇是关于连续特征与离散特征处理的论文:Before I answer the above question, let us go through some basic ideas.Why do we binarize categorical features?We binarize the categorical input so that they can be thoug原创 2016-04-11 15:17:11 · 10650 阅读 · 3 评论 -
MDL最小描述长度在分词研究中的应用
MDL(minimum description length,最小描述长度) 原理是 Rissane 在研究通用编码时提出的。其基本原理是对于一组给定的实例数据 D , 如果要对其进行保存 ,为了节省存储空间, 一般采用某种模型对其进行编码压缩,然后再保存压缩后的数据。同时, 为了以后正确恢复这些实例数据,将所用的模型也保存起来。所以需要保存的数据长度( 比特数) 等于这些实例数据进行编码压缩后的原创 2016-05-26 23:06:02 · 2788 阅读 · 0 评论 -
参考美团的"机器学习中的数据清洗与特征处理综述"
综述如上图所示是一个经典的机器学习问题框架图。数据清洗和特征挖掘的工作是在灰色框中框出的部分,即“数据清洗=>特征,标注数据生成=>模型学习=>模型应用”中的前两个步骤。灰色框中蓝色箭头对应的是离线处理部分。主要工作是从原始数据,如文本、图像或者应用数据中清洗出特征数据和标注数据。对清洗出的特征和标注数据进行处理,例如样本采样,样本调权,异常点去除,特征归一化处理,特征变化转载 2016-05-31 10:29:36 · 2575 阅读 · 0 评论 -
美团的“实例详解机器学习如何解决问题”
前言随着大数据时代的到来,机器学习成为解决问题的一种重要且关键的工具。不管是工业界还是学术界,机器学习都是一个炙手可热的方向,但是学术界和工业界对机器学习的研究各有侧重,学术界侧重于对机器学习理论的研究,工业界侧重于如何用机器学习来解决实际问题。我们结合美团在机器学习上的实践,进行一个实战(InAction)系列的介绍(带“机器学习InAction系列”标签的文章),介绍机器学习在解决工业转载 2016-05-31 10:30:29 · 1830 阅读 · 0 评论 -
卡方检验用于特征提取
前文提到过,除了分类算法以外,为分类文本作处理的特征提取算法也对最终效果有巨大影响,而特征提取算法又分为特征选择和特征抽取两大类,其中特征选择算法有互信息,文档频率,信息增益,开方检验等等十数种,这次先介绍特征选择算法中效果比较好的开方检验方法。 大家应该还记得,开方检验其实是数理统计中一种常用的检验两个变量独立性的方法。(什么?你是文史类专业的学生,没有学过数理统计?那你做什么文本分类原创 2016-05-22 10:31:14 · 6370 阅读 · 0 评论 -
基于卡方的独立性检验
本文给出基于两种统计量的假设检验,来检验变量间是否独立--χ2与秩和。χ2越小说明越独立假设检验假设检验(Test of Hypothesis)又称为显著性检验(Test of Ststistical Significance)。在抽样研究中,由于样本所来自的总体其参数是未知的,只能根据样本统计量对其所来自总体的参数进行估计,如果要比较两个或几个总体的参数是否相同,也只能分原创 2016-06-07 10:26:16 · 15387 阅读 · 0 评论 -
C4.5 算法对于连续性属性的处理方法介绍
C4.5既可以处理离散型属性,也可以处理连续性属性。在选择某节点上的分枝属性时,对于离散型描述属性,C4.5的处理方法与ID3相同。对于连续分布的特征,其处理方法是:先把连续属性转换为离散属性再进行处理。虽然本质上属性的取值是连续的,但对于有限的采样数据它是离散的,如果有N条样本,那么我们有N-1种离散化的方法:j的分到左子树,>vj的分到右子树。计算这N-1种情况下最大的信息增益率。另外原创 2016-06-07 13:08:38 · 20559 阅读 · 3 评论 -
CART回归树对于特征的处理
CART算法的重要基础包含以下三个方面:(1)二分(Binary Split):在每次判断过程中,都是对观察变量进行二分。CART算法采用一种二分递归分割的技术,算法总是将当前样本集分割为两个子样本集,使得生成的决策树的每个非叶结点都只有两个分枝。因此CART算法生成的决策树是结构简洁的二叉树。因此CART算法适用于样本特征的取值为是或非的场景,对于连续特征的处理则与C4.5算原创 2016-06-07 14:36:17 · 9535 阅读 · 1 评论 -
逻辑回归中的离散变量
在工业界,很少直接将连续值作为逻辑回归模型的特征输入,而是将连续特征离散化为一系列0、1特征交给逻辑回归模型,这样做的优势有以下几点:0. 离散特征的增加和减少都很容易,易于模型的快速迭代;1. 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;2. 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大转载 2016-09-06 14:56:49 · 5324 阅读 · 0 评论 -
xgboost等Tree-Model 对于特征是否需要进行one-hot编码的必要性分析
参考链接:https://blog.csdn.net/pipisorry/article/details/61193868xgboost 对所有的输入特征都是当做数值型对待,所以你给定的数据也要是指定的数据类型对于数据缺失或者稀疏,xgboost 都可以自己处理纠结于 one-hot 编码问题主要是将分类信息转化为一定长度索引的二进制数据假设当前的数据类型是 annima...原创 2018-09-30 23:29:59 · 10867 阅读 · 1 评论