七月算法机器学习 6 特征工程

最新推荐文章于 2023-01-01 17:58:49 发布

天人合一peng

最新推荐文章于 2023-01-01 17:58:49 发布

阅读量386

点赞数

分类专栏： Python 机器学习/深度学习/人工智能/情感计算

本文链接：https://blog.csdn.net/moonlightpeng/article/details/106905433

版权

Python 同时被 2 个专栏收录

286 篇文章 8 订阅

订阅专栏

机器学习/深度学习/人工智能/情感计算

220 篇文章 16 订阅

订阅专栏

类别型特征Python处理： Hash技巧

类别型特征Python处理： Histogram映射

主要内容

特征工程：大神们怎么看

l  Coming up with features is difficult, time-consuming, requires expert knowledge.
"Applied machine learning" is basically feature engineering.
——Andrew Ng

l  Actually the success of all Machine Learning algorithms depends on how you
present the data.
——Mohammad Pezeshki

l  …some machine learning projects succeed and some fail. What makes the
difference? Easily the most important factor is the features used.
——Pedro Domingos

l  The algorithms we used are very standard for Kagglers. […] We spent most of our
efforts in feature engineering.
—— Xavier Conort

特征工程

o  特征 => 数据中抽取出来的对结果预测有用的信息
o  特征工程是使用专业背景知识和技巧处理数据，使得特征能在机器学习算法上发挥更好的作用的过程。

意义

o  更好的特征意味着更强的灵活度
o  更好的特征意味着只需用简单模型
o  更好的特征意味着更好的结果

互联网公司机器学习的“真相”

数据与特征处理

数据采集

  大多数情况下，你的工作：思考哪些数据有用
  埋点和数据打标存储会有其他的同学做

数据格式化
数据清洗

数据清洗示例/思考角度

数据采样

正负样本不平衡处理办法

特征处理

特征处理之数值型

数值型特征Python处理

分位数，从大到小排序后，25%， 50%，的样本

原来是连续，现在离散，如果其值落在某个区段则其为1，其它为0

变为稀疏的离散的向量

pandas as pd

特征处理之类别型

o  one-hot编码
o  哑变量
o  Hash与聚类处理
o  小技巧:统计每个类别变量下各个target比例，转成数值型

类别型特征Python处理： Hash技巧

bucket是词集 word list

类别型特征Python处理： Histogram映射

【散步，足球，看电视视】

特征处理之时间型

特征处理之文本型
词袋

bags of words

把词袋中的词扩充到n-gram

n-gram，将词语组合，放到里面

我很喜欢你

你很喜欢我

我，很喜欢，（很和喜欢组合），喜欢你（喜欢和你组合）

使用Tf–idf 特征

TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。

深度学习用的word2vec

king和queen 与man和woman的关系类似，其距离差不多的，

word2vec能得到一个词相对于另一个词的特征

特征处理之统计特征

特征处理示例

特征处理之组合特征

特征选择

o  原因：

  冗余：部分特征的相关度太高了，消耗计算性能。
  噪声：部分特征是对预测结果有负影响

特征选择 VS 降维

  前者只踢掉原本特征里和结果预测关系不大的，后者做特征的计算组合构成新特征
  SVD或者PCA确实也能解决一定的高维度问题
特征选择不会改变原来的特征

降维会做一些运算

常见特征选择方式之过滤型

过滤型特征选择Python包

K的选择不好定，通过SelectPercentile设定百分比来确定

常见特征选择方式之包裹型

  把特征选择看做一个特征子集搜索问题，筛选各种特征子集，用模型评估效果。
  典型的包裹型算法为 “递归特征删除算法” (recursive feature elimination algorithm)
  比如用逻辑回归，怎么做这个事情呢？

①   用全量特征跑一个模型
②   根据线性模型的系数(体现相关性)，删掉5-10%的弱特征，观察准确率/auc的变化
③   逐步进行，直至准确率/auc出现大的下滑停止

包裹型特征选择Python包

特征映射得到的如one-hot编码

常见特征选择方式之嵌入型

  根据模型来分析特征的重要性（有别于上面的方式，是从生产的模型权重等）。
  最常见的方式为用正则化方式来做特征选择。
  举个例子，最早在电商用LR做CTR预估，在3-5亿维的系数特征上用L1正则化的LR模型。剩余2-3千万的feature，意
味着其他的feature重要度不够
theta0 + theta1*x1 + theta2*x2+-----+ thetan*xn

x1,x2----特征重要则theta大否则就小

L1截断性效应，不重要就不要了

L2是缩小

嵌入型特征选择Python包

天人合一peng

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
七月算法机器学习 6 特征工程

目录主要内容特征工程：大神们怎么看特征工程意义互联网公司机器学习的“真相”数据与特征处理数据采集数据格式化数据清洗数据清洗示例/思考角度数据采样正负样本不平衡处理办法特征处理特征处理之数值型数值型特征Python处理特征处理之类别型类别型特征Python处理： Hash技巧类别型特征Python处理： Histogram映射特征处理之时间型特征处理之文本型词袋把词袋中的词扩充到n-gram使用Tf–idf 特征特征处理
复制链接

扫一扫