【特征建构】特征的建构方法

    1. 特征建构*
      1. 外部数据

案例:运用开放数据(Open Data)的信用风险评估

 

OK bank 希望增加客户人数(客户太少),他们就找到AMFC公司(有资金需求的用户)给报酬AMFC。

信用卡需要客户评分卡。

客户相关信息都在AMFC

CCIS也可以提供额外信息

Open Data 政府的开放数据也可以得到信息

最终得到长变数清单

 

其中蓝色的就是AMFC的数据,绿色代表CCIS的额外信息

Open Data 政府的开放数据得到户籍所在地的信息

坏客户代表不缴款3期以上。

运用外部数据,以这个为基础建立评分模型。

后面变异值都达到了不错的标准

      1. 数据探索

案例:临床路径

 

使用不同的药物治疗好的,每个病人状况不同,需要不同药物。

有些医生经验不足,就会导致用错药物。看看输入字段与目标字段是否有关联。

 

性别似乎差距不大。,只有一些细微的差距。,不是非常密切

 

血压的比例差距似乎很大。黄色药物似乎通用,其他的药物就不一致了,算重要的字段。

 

胆固醇DrugC比较特别 ,

 

可以发现50岁之后,差距较大。药B和药A。

 

Na含量数据比较杂乱,看不出规律

 

K含量低的时候,大部分是Y药物。X药物逐渐上升。

我们也可以做两两变量的格式化呈现

 

决策树,该树有五层,准确率挺高。

两两交叉进行变量关系检查。

 

NA与K的斜线关系,就是一个比例关系,决定了药物是否使用DrugY

我们就可以进行字段的延伸NA/K,画图看看

 

当Na/K高于某值就可以确定是否使用Drug Y

当然与此同时特征NA和特征Y就要排除了

 

这次建出了3层的决策树,模型变的简单,准确率百分百。

而且规则就很明显,可读性也高。和我们之前单变量的想法一致。

      1. 专家经验

案例:银行信用风险评分

 

如果给我们的数据全是作业型,我们不懂如何用公式构建,这时就要靠专家经验,选择合适的计算方法。

于是专家说明:平均账单和平均缴款其实与是否逾期关系不大,因为可能收入高,使用二者数据就高,信用任然好,收入低,二者数据高,可能信用就差。没考虑到收入,所以前两者可能效果不好。看不太出来。当然我们还是要用数据验证。平均额度使用率。

平均额度使用率。代表能使用的额度,账户额度使用越高,说明收入低,需要经常使用额度。

平均还款率:重要

是否溢缴,负数就代表有已溢纳,经济能力强,回馈金额没有使用完,也会负数。如果是负几乎不可能变为坏客户。银行还欠他钱,那肯定不会变坏。

过去缴款历史得分:看看你过去是否有不缴,延期缴费的情况

按专家经验,背后有一定的理论依据,也可以构建出新的特征数据,分析型数据。

      1. 数据分析

案例:股票买卖、交通工具、投票

建构的是多项式的特征及交互特征

 

 

这是人造的数据集,前一天大于第二天,

 

 

决策树一次只能考虑一个字段,所以这个只是系统的认为,没有可读性,没有意义。

最佳规则

 

决策树是按照直线的地方切割,如果出现在阴影处,就会出错。

所以应该按斜线考虑,也就是考虑两个字段的关系。

 

黄色为第一条规则,绿色为第二条规则,蓝色为第三条规则,红色为第4条规则。

实际是我们只要规定下一天的价格大于上一天的价格我们就买,否则就卖

但是决策树做不到这一点,决策树只能直切,不能斜切。(要用神经网络解决本问题)让神经网络产生新特征

案例2交通工具

 

决策树认为出行距离最重要

 

原因如图

我们决策树是按Entropy的值来决定重要性。如果等于1,相当于完全无偏,无影响。越小越接近0代表越好,

 

Distannce就比较好

左边的决策树非常复杂,虽然准确率高,但是居然使用了6条规则,我们数据才8条

此时我们将两个最不重要的两个字段合并就只有4条规则。产生这种原因的情况也是因为决策树只能选择一个字段,不合并的话就不能得到好结果。解决方法要用关联规则找出关联的二者关系

案例3:投票数据集

 

规则就是3个一致就是意见相同

但是决策树会变的非常复杂

 

这个很难看出含义可解释性很差。

我们希望的结果应该是:

 

这是比较好和有意义的规则

决策树没法分析2个以上的字段。

要构建多项特征(二次方三次方,指数)

 

构建特征交互项

X1X2

Python中生成二次项

 

事前分析及产生延伸性变量非常重要

外部数据,人的观察,专家指数

特征工程技术。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

晴天qt01

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值