特征工程
文章平均质量分 81
Just Jump
勿忘来时路上的脚印。站在巨人的肩膀上。
你没有比别人更努力,更不会比别人更不努力。你只是按照你能做到的、最适合你自己的办法去实现自己的目标,去成长为你眼中优秀的人们中的一员。
你自己、优秀的人群;决心、视野;自律、标准。
业精于勤,行成于思。
古之成大事者,不惟有超世之才,亦必有坚韧不拔之志。
苟有恒,何必三更起五更眠;最无益,只怕一日曝十日寒。 十五年只做一个行当。
展开
-
CTR/CVR预测模型的特征怎么找?不同类型特征怎么处理?序列Embedding特征怎么用?
浅谈微视推荐系统中的特征工程浅谈微视推荐系统中的特征工程浅谈不简单。https://mp.weixin.qq.com/s?__biz=MjM5ODYwMjI2MA==&mid=2649744942&idx=1&sn=7efd84c1371d785d719de481e3e6d44a&scene=21#wechat_redirecthannahguo腾讯技术工程2019-12-06 18:18本文作者:hannahguo,腾讯 PCG 推荐算法工程师在...转载 2021-12-30 16:31:06 · 2838 阅读 · 0 评论 -
【转】对数据集进行最优分箱和WOE转换
对数据集进行最优分箱和WOE转换 - Reynold.C - 博客园对数据集分箱的方式三种,等宽等频最优,下面介绍对数据集进行最优分箱,分箱的其他介绍可以查看其他的博文,具体在这就不细说了: 大体步骤: woe.py conf.py woe_executor.py thttps://www.cnblogs.com/leixingzhi7/p/9366908.htmlhttps://github.com/boredbird/woe/tree/master/woehttps://github.com/...转载 2021-12-06 22:48:46 · 1425 阅读 · 0 评论 -
【转】决策树分箱、卡方分箱、bestks以及评价标准WOE和IV值
转自:决策树分箱、卡方分箱、bestks以及评价标准WOE和IV) - 哔哩哔哩特征工程之特征分箱:决策树分箱、卡方分箱、bestks以及评价标准1.WOE和IV2.无监督分箱2.1等频分箱2.2等距分箱3.有监督分箱3.1决策树分箱3.2best-ks分箱3.3卡方分箱前言:在做数据挖掘项目的时候,特征工程通常是其中非常重要的一个环节,但是难度也比较高,并且不同项目特征工程会有所差异,因此在做相关项目时可以多总结一些对结果提升比较明显的操作,近期做了一下天池上面的入门金融风控的项目,发现在对部分连续变量和转载 2021-12-06 22:42:00 · 2879 阅读 · 0 评论 -
如何做特征筛选
工作中做模型,首先很重要的一步就是特征工程,包括特征编码、特征归一、特征筛选等。这里聊一下工作中常用的做特征筛选的方法。特征覆盖率 特征封箱,即优势比 IV值 GAIN信息增益 CHI卡方 基于模型的筛选1、特征覆盖率对于样本,有多少用户有此特征,缺失情况如何。一般要求特征覆盖率大于一定阈值。2、特征封箱测试即特征在正样本、负样本中的占比对比测试。选择特征:pct_1/pct_0<=0.8 || pct_1/pct_0=>1.23、根据IV值、GAIN..原创 2021-12-05 12:25:09 · 2846 阅读 · 0 评论 -
【转】训练数据不平衡问题都怎么解?
作者|Chilia整理|NewBeeNLP本文主要讨论两种不平衡问题。 一是数据的类别本来就不平衡,比如在广告CTR预估中,可能90%的广告都不会被点击,只有一少部分被点击; 二是由于误分类cost的不对称性(asymmetric cost),例如把non-spam 分成spam的代价要远大于把spam分成non-spam。 在这篇文章中,我将介绍两大类方法:一是通过采样而改变数据集,二是修改训练策略。1. 从数据层面解决 – 重采样 (Resampling)...转载 2021-12-05 11:58:31 · 1661 阅读 · 0 评论 -
特征工程-处理样本不均衡问题
1、处理样本不均衡问题--上采样、下采样训练集中各个类别的样本的特征分布不一致的问题,所以这里我们一起讲。 我们做分类算法训练时,如果训练集里的各个类别的样本数量不是大约相同的比例,就需要处理样本不平衡问题。也许你会说,不处理会怎么样呢?如果不处理,那么拟合出来的模型对于训练集中少样本的类别泛化能力会很差。举个例子,我们是一个二分类问题,如果训练集里A类别样本占90%,B类别样本占10%。 而测试集里A类别样本占50%, B类别样本占50%, 如果不考虑类别不平衡问题,训练出来的模型对于类别B转载 2021-08-08 18:04:44 · 1052 阅读 · 0 评论 -
【转】特征工程之特征选择
写在前面:转自博客园的一篇文章特征工程之特征选择写的挺好的。特征工程是数据分析中最耗时间和精力的一部分工作,它不像算法和模型那样是确定的步骤,更多是工程上的经验和权衡。因此没有统一的方法。这里只是对一些常用的方法做一个总结。本文关注于特征选择部分。后面还有两篇会关注于特征表达和特征预处理。1. 特征的来源 在做数据分析的时候,特征的来源一般有两块,一块是业务已经整理好各种特征数据,我们需要去找出适合我们问题需要的特征;另一块是我们从业务特征中自己去寻找高级数据特征。我们就针对这两部..转载 2021-08-08 16:51:02 · 330 阅读 · 0 评论 -
【汇】连续变量的常用分箱测试方法:等频、等距、best_ks、卡方
分箱的基评估标准是依靠WOE与IV值,常用的方法是等频、等距、best_ks、卡方。决策树里对于连续值采用信息熵、信息增益率、方差、基尼系数等来进行拆分的选择。它们本质上是一样的,都是为了寻找最佳的拆分方式,具有最好的表达能力。只不过一个不是用模型能力表现,一个是用模型能力表现。等频分箱对连续变量从小到大排序,使用频次百分比qcut分割的方式对连续变量进行分箱,使得每个区间具有数量相同的样本量。等距分箱对连续变量从小到大排序,将取值区间等分成N等份,样本根据其取值落到对应的分箱中。转载 2020-07-24 22:18:56 · 4569 阅读 · 0 评论 -
【转】分类变量的encoding处理
转自:CDA数据分析研究院。原文章标题:机器学习中的特征工程——分类变量的处理作者:CDA数据分析师培训链接:https://www.jianshu.com/p/d63c0dbe7f3c来源:简书介绍关于机器学习中的特征工程关于分类变量的处理。分类变量概念顾名思义,分类变量用于表示类别或标签。在现实世界中,分类变量的值是无穷多的。这些值可以用数字表示。然而,与数值变量不同,分类变量的值不能相互排序。例如石油作为一种行业类型,既不高于也不低于旅游业,这被称为非序数。判断转载 2020-07-22 09:17:05 · 2234 阅读 · 0 评论 -
《特征工程》知识框架
特征工程checklist原创 2020-07-16 19:10:48 · 247 阅读 · 0 评论 -
sklearn使用之Pipeline、FeatureUnion、GridSearchCV代码示例
sklearn使用之Pipeline和FeatureUnion原创 2020-07-15 18:17:59 · 317 阅读 · 0 评论 -
朴素贝叶斯分类器常用的三种条件概率模型:伯努利、多项式、高斯模型
一、条件概率和贝叶斯定理条件概率:贝叶斯定理: 贝叶斯分类器:若样本x有n个特征,用()表示, 将其分到类的可能性为:。 根据上面的公式可以求x属于各个分类的可能性,取最大可能性的分类。二、多项式模型处理离散的特征使用多项式模型。多项式模型在计算先验概率和条件概率时,会做一些平滑处理,其公式为:是类别为的样本个数,n是特征的维数,是类别为的样本中,第...原创 2020-07-15 17:18:34 · 3226 阅读 · 0 评论 -
【转】【重要】推荐系统之数据与特征工程
原文链接:推荐系统之数据与特征工程原文作者丨gongyouliu来自大数据与人工智能推荐系统是机器学习的一个子领域,并且是一个偏工程化、在工业界有极大商业价值的方向。大量应用于提供toC类产品的互联网企业服务中,通过推荐系统为用户提供精准的个性化服务。推荐系统通过推荐算法来为用户生成个性化推荐结果,而推荐算法依赖数据输入来构建算法模型。本篇文章我们来讲解推荐系统所依赖的数据,怎么处理这些数据,让数据转换成推荐算法可以直接使用的形式,最终我们就可以构建高效、精准的推荐模型,这些处...转载 2020-07-10 05:33:59 · 2637 阅读 · 0 评论 -
Pyspark比较PCA和SVD
PCA 分解特征向量的协方差矩阵。第一主成分是解释方差最大的成分,各主成分间是相互独立的。每个主成分与原数据具有相同的特征维度。原数据矩阵通过与主成分相乘映射到低维的空间中。SVD使用矩阵分解的方法将矩阵X近似分解为U*S*V,S为对角矩阵,对角线上的元素被称为奇异值。SVD相比于PCA的计算更稳定些,但计算需要的内存也更大。在指定相同成分K时,SVD分解中的V与PCA的主成分几乎相同...原创 2020-04-22 00:56:33 · 844 阅读 · 0 评论 -
Pyspark使用LinearRegressionWithSGD回归预测共享单车租赁量
Pyspark使用LinearRegressionWithSGD回归预测共享单车租赁量第一步:点击数据地址 ,选择下载文件 Bike-Sharing-Dataset.zip使用hour.csv,去掉第一行的数据说明,得到hour_noheader.csv第二步:加载数据,并放入cache缓存中#Initializing PySparkfrom pyspark import S...原创 2020-04-14 19:45:06 · 1492 阅读 · 1 评论 -
使用LSA潜在语义分析对酒店评论进行聚类,预测评论主题
'''对酒店评论数据进行聚类分析,预测评论主题使用潜在语义分析latent semantic analysis(LSA)的方法酒店评论数据来自 Kaggle , https://www.kaggle.com/datafiniti/hotel-reviews.'''from sklearn.preprocessing import Normalizerfrom sklear...原创 2020-03-25 17:32:37 · 1228 阅读 · 0 评论 -
用PCA、LDA、LR做人脸识别代码实现
'''机器学习-面部识别示例'''from sklearn.datasets import fetch_lfw_peoplefrom sklearn.decomposition import PCAfrom sklearn.discriminant_analysis import LinearDiscriminantAnalysisfrom sklearn.preprocessing ...原创 2020-03-25 17:18:28 · 1120 阅读 · 0 评论 -
用gensim-word2vec实现词矢量化
'''文本特征学习-词矢量化 Word2vec 用Python包genism实现'''import gensimfrom gensim.models import word2vec, Word2Vecmodel = gensim.models.Word2Vec(sentences, min_count=1, size=20)sentences = """How to Sound...原创 2020-03-25 16:48:35 · 360 阅读 · 0 评论 -
RBM受限波兹曼机在特征学习上的使用
'''受限波兹曼机在特征学习上的使用'''import numpy as npimport matplotlib.pyplot as plt%matplotlib inlinefrom sklearn import linear_model, datasets, metricsfrom sklearn.neural_network import BernoulliRBMfrom s...原创 2020-03-25 12:07:24 · 921 阅读 · 0 评论 -
在机器学习pipeline中同时使用PCA和LDA
'''在机器学习pipeline中同时使用PCA和LDA'''from sklearn.neighbors import KNeighborsClassifierfrom sklearn.pipeline import Pipelinefrom sklearn.model_selection import cross_val_score# import the Iris datase...原创 2020-03-25 01:59:16 · 706 阅读 · 2 评论 -
LDA线性判别式-scikitlearn和numpy两种实现方法
'''Linear Discriminant Analysis (LDA) in manuer and scikit-learn1. Calculate mean vectors of each class2. Calculate within-class and between-class scatter matrices3. Calculate eigenvalues and eig...原创 2020-03-25 01:26:02 · 541 阅读 · 0 评论 -
PCA主成分分析-scikitlearn和Numpy两种实现方法
'''PCA with the Iris dataset – manual example 使用Iris数据来示例PCA主成分分析,使用numpy手工实现和s cikit-learn中的PCA方式实现'''# import the Iris dataset from scikit-learnfrom sklearn.datasets import load_iris# import ...原创 2020-03-25 00:13:38 · 983 阅读 · 0 评论