PQ特征工程开荒

特征工程简介

========================

特征工程的重要性

有这么一句话在业界广泛流传:
+  数据和特征决定了机器学习的上限
+  模型和算法只是逼近这个上限而已

========================

特征工程是什么呢?

	-  本质是一项工程活动
	-  目的是最大限度地从原始数据中提取特征以供算法和模型使用。

========================
通过总结和归纳,特征工程包括以下方面

特征使用方案

要实现目标需要哪些数据?

基于业务理解 尽可能找出对因变量影响的自变量

可用性评估

获取速度

覆盖率

准确率

特征获取方案

如何获取

如何存储

特征处理

特征清洗

清洗异常样本

采样

数据不均衡
样本权重

预处理

单个特征

归一化
离散化
Dummy Coding
引入虚拟变量 的目的:
	将不能够定量处理的变量量化 标记为 0 1
		Service_Delivery_Type 
            Bring In ( 送修)
            Depot send In (寄修)
            OnSite(FRU)  (现场上门维修)
            Part Only (CRV)
            Advanced Exchange (高级交换)
		
			有五种服务类型 可以增加5个哑变量来代替SDT这个变量
			D1 D2 D3 D4 D5	 只能由一个1 其他都是0
				D1(1 = bring in / 0 = ! bring in)
				...
线性回归分析当中引入哑变量的目的:
	考察定性因素对因变量的影响

引入哑变量的方式

  • 加法方式
哑变量作为单独的自变量
有独立的系数
几何意义:
	只改变回归直线的截距(constant)
	不改变斜率(B)
  • 乘法方式
不是作为一个单独的自变量
而是与其中某一个自变量相乘后作为一个自变量
几何意义:
	不改变截距
	只改变斜率
缺失值
数据变换
log
指数
Box-Cox

多个特征

降维
PCA
LDA
特征选择
Filter
思路:自变量和目标变量之间的关联
相关系数
卡方检测
信息增益 互信息
Wrapper
思路:通过目标函数(AUC/MSE)来决定是否加入一个变量
迭代:产生特征子集,评价

####### 完全搜索
####### 启发式搜索
####### 随机搜索
######## GA
######## SA

Embedded
思路:学习器自身自动选择特征
正则化
L1 Lasso
L2 Ridge
决策树 嫡 信息增益
深度学习

衍生变量

对原始数据加工 生成有商业意义的变量

特征监控

特征有效性分析

特征的重要性,权重

特征监控

监控重要特征

防止特征质量下降,影响模型效果
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

oifengo

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值