宽带离网用户分析（4）特征选择

最新推荐文章于 2024-02-27 07:16:13 发布

InfSkyline

最新推荐文章于 2024-02-27 07:16:13 发布

阅读量2.7k

点赞数 1

分类专栏：数据挖掘文章标签：离网用户分析特征选择特征抽取 Filter

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/infskyline/article/details/47256513

版权

本文探讨了在宽带离网用户分析中的特征选择重要性，包括减少建模成本、提高精度和泛化能力。介绍了特征选择的搜索方法和Filter方法，如距离度量、信息度量、依赖性度量和一致性度量，以及特征选择的一般流程。特征选择旨在剔除冗余和无用信息，提升模型性能。

摘要由CSDN通过智能技术生成

宽带离网用户分析之特征选择

　　前面我们介绍过一些特征抽取的方法（Feature Extraction），现在我们来谈谈特征选择（Feature Selection）。

1. 特征选择的重要性

　　特征其实是机器学习问题里面一个很重要的问题，做图像的人知道，其实图像圈子里面很多人就是做特征的。当今“大数据”的概念各种泛滥，但是“以数据为中心”的观点的确有其道理。
　　当数据特别多并且不断变化和增长的时候，对数据深入的理解往往可能比高端的模型知识更为有用。
　　如果原始数据是土，那么我们做数据预处理和特征抽取则相当于用土来烧砖块，而我们的建模就是起大厦，这中间有关键的一部——用砖块累大厦。但是用什么砖来累呢？劣质甚至不合格的砖也拿过去用吗？
　　不错，我们需要对砖块进行选择——特征选择。
　　从机器学习的角度来讲，特征选择可以减少建模的时空代价，并且好的特征可以增加模型的精度和泛化性能。从我们分类的需求来看，就是让正负样本更加可分。
　　说白了，特征选择可以剔除冗余的信息、无用的信息，从而使机器学习的性能更优。

2. 特征选择形式化表示

　　我们有特征集合 $\{F_1,F_2,...,F_n\}$ ，假设最优的特征集合是 $\{F_a,F_b,F_c\}$ ，其他的特征不是最优特征集合的冗余信息就是完全和训练不相关的无用信息。

3. 特征选择方法介绍

　　这里我们介绍几种常用的特征选择方法的思想，大家如果感兴趣可以去Google特征选择方法的Review，那里有更加详尽的介绍。

3.1. 搜索

　　从形式化表示中我们不难发现，特征选择就是搜索一个子集的问题，说白了就是一个搜索问题，如果我们不知道最优特征集合的元素个数，很明显这是一个搜索空间为

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

InfSkyline CSDN认证博客专家 CSDN认证企业博客

码龄9年

36: 原创

105万+: 周排名

213万+: 总排名

8万+: 访问

: 等级

1162: 积分

50: 粉丝

13: 获赞

2: 评论

71: 收藏

私信

关注

热门文章

分类专栏

leetcode 18篇
数据挖掘 18篇

最新评论

产品健康度模型（4）打分I
车车轮轮滚滚滚: 最近也在做类似的工作，看完大佬的文章发现思路惊人的像！不过我没想到用核密度估计，而是直接根据分布映射到对应的分数区间，本质上也是希望利用历史信息，并且使占比多的取值打分区分度尽可能大，也不确定是否严谨，希望和大佬多多交流~
话务预测（5） Ratio
shchsunshine: 您好，可否提供一下话务量预测的数据和源代码，麻烦您了。我的邮箱755741205@qq.com

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。