【特征建构】特征的建构方法

最新推荐文章于 2023-07-18 20:22:13 发布

晴天qt01

最新推荐文章于 2023-07-18 20:22:13 发布

阅读量774

点赞数

分类专栏：数据挖掘文章标签：大数据数据分析数据挖掘决策树

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq1021091799qq/article/details/125764808

版权

数据挖掘专栏收录该内容

53 篇文章 16 订阅

订阅专栏

1. 特征建构*
  1. 外部数据

案例：运用开放数据（Open Data）的信用风险评估

OK bank 希望增加客户人数（客户太少），他们就找到AMFC公司（有资金需求的用户）给报酬AMFC。

信用卡需要客户评分卡。

客户相关信息都在AMFC

CCIS也可以提供额外信息

Open Data 政府的开放数据也可以得到信息

最终得到长变数清单

其中蓝色的就是AMFC的数据，绿色代表CCIS的额外信息

Open Data 政府的开放数据得到户籍所在地的信息

坏客户代表不缴款3期以上。

运用外部数据，以这个为基础建立评分模型。

后面变异值都达到了不错的标准

1. 1. 数据探索

案例：临床路径

使用不同的药物治疗好的，每个病人状况不同，需要不同药物。

有些医生经验不足，就会导致用错药物。看看输入字段与目标字段是否有关联。

性别似乎差距不大。，只有一些细微的差距。，不是非常密切

血压的比例差距似乎很大。黄色药物似乎通用，其他的药物就不一致了，算重要的字段。

胆固醇DrugC比较特别，

可以发现50岁之后，差距较大。药B和药A。

Na含量数据比较杂乱，看不出规律

K含量低的时候，大部分是Y药物。X药物逐渐上升。

我们也可以做两两变量的格式化呈现

决策树，该树有五层，准确率挺高。

两两交叉进行变量关系检查。

NA与K的斜线关系，就是一个比例关系，决定了药物是否使用DrugY

我们就可以进行字段的延伸NA/K，画图看看

当Na/K高于某值就可以确定是否使用Drug Y

当然与此同时特征NA和特征Y就要排除了

这次建出了3层的决策树，模型变的简单，准确率百分百。

而且规则就很明显，可读性也高。和我们之前单变量的想法一致。

1. 1. 专家经验

案例：银行信用风险评分

如果给我们的数据全是作业型，我们不懂如何用公式构建，这时就要靠专家经验，选择合适的计算方法。

于是专家说明：平均账单和平均缴款其实与是否逾期关系不大，因为可能收入高，使用二者数据就高，信用任然好，收入低，二者数据高，可能信用就差。没考虑到收入，所以前两者可能效果不好。看不太出来。当然我们还是要用数据验证。平均额度使用率。

平均额度使用率。代表能使用的额度，账户额度使用越高，说明收入低，需要经常使用额度。

平均还款率：重要

是否溢缴，负数就代表有已溢纳，经济能力强，回馈金额没有使用完，也会负数。如果是负几乎不可能变为坏客户。银行还欠他钱，那肯定不会变坏。

过去缴款历史得分：看看你过去是否有不缴，延期缴费的情况

按专家经验，背后有一定的理论依据，也可以构建出新的特征数据，分析型数据。

1. 1. 数据分析

案例：股票买卖、交通工具、投票

建构的是多项式的特征及交互特征

这是人造的数据集，前一天大于第二天，

决策树一次只能考虑一个字段，所以这个只是系统的认为，没有可读性，没有意义。

最佳规则

决策树是按照直线的地方切割，如果出现在阴影处，就会出错。

所以应该按斜线考虑，也就是考虑两个字段的关系。

黄色为第一条规则，绿色为第二条规则，蓝色为第三条规则，红色为第4条规则。

实际是我们只要规定下一天的价格大于上一天的价格我们就买，否则就卖

但是决策树做不到这一点，决策树只能直切，不能斜切。（要用神经网络解决本问题）让神经网络产生新特征

案例2交通工具

决策树认为出行距离最重要

原因如图

我们决策树是按Entropy的值来决定重要性。如果等于1，相当于完全无偏，无影响。越小越接近0代表越好，

Distannce就比较好

左边的决策树非常复杂，虽然准确率高，但是居然使用了6条规则，我们数据才8条

此时我们将两个最不重要的两个字段合并就只有4条规则。产生这种原因的情况也是因为决策树只能选择一个字段，不合并的话就不能得到好结果。解决方法要用关联规则找出关联的二者关系

案例3：投票数据集

规则就是3个一致就是意见相同

但是决策树会变的非常复杂

这个很难看出含义可解释性很差。

我们希望的结果应该是：

这是比较好和有意义的规则

决策树没法分析2个以上的字段。

要构建多项特征（二次方三次方，指数）

构建特征交互项

X1X2

Python中生成二次项

事前分析及产生延伸性变量非常重要

外部数据，人的观察，专家指数

特征工程技术。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
【特征建构】特征的建构方法

回过头看看网站Kaggle，KDD，国内外的比赛，每个竞赛的冠军其实都没有用到很高深的算法，大多数都是在特征工程这个环节做出了出色的工作，然后使用一些常见的算法就可以得到出色的性能。本文介绍了特征建构的方法...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

晴天qt01 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。