机器学习/数据挖掘面试问题——第11章特征选择与稀疏学习

梁慢慢慢慢

于 2024-05-18 21:17:43 发布

阅读量667

点赞数 22

文章标签：机器学习数据挖掘学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liangmanqi0320/article/details/139030987

版权

学习路线参考《机器学习》周志华

其他参考书：《机器学习实战》《数据挖掘》《百面机器学习》

还在更新ing...

1.数据挖掘

1.1 什么是数据挖掘？

从大量有噪声的数据中提取出隐含的、有价值的信息的过程。

1.2 数据挖掘、统计学和机器学习之间的关系是什么？

统计学和机器学习为数据挖掘提供技术和方法，数据挖掘将其应用在海量数据上。

2.数据清洗的基本内容是什么？

数据可能存在在的质量问题：测量误差、数据收集错误、噪声、离群点、缺失值、不一致值、重复数据

数据清洗一般有：去重、处理缺失值、平滑噪声数据

2.1 如何处理缺失值？

（1）当确实数据所占比例较小时，可以直接删除

（2）数据补齐：当数据量小，对数据相关信息比较了解时，可以采取人工填写；平均值、众数（非数值型）、中位数（倾斜分布）填充；采用基于推断的方法填充，如建立回归模型，对缺失值进行估计，使用贝叶斯模型推理。

2.2 平滑噪声

分箱法：把待处理的数据按照一定的规则放进一些箱子中，考察每个箱子中的数据，采用某种方法对各个箱子中的数据进行处理。

等深分箱法（记录数相等）、等宽分箱法（区间相等）等

局部平滑方式：按平均值平滑、按边界值、按中值

3.数据预处理的方法和内容

数据清洗、数据集成、数据规范化、数据规约、数据离散化

2.1 什么是数据集成？需要注意什么？

将若干分散数据源中的数据集成到一个统一的数据集合中。

存在实体识别问题（同名异义、异名同义、单位统一）、属性冗余问题、数据值冲突问题（规格单位、编码）

2.2 有哪些数据规范化的方法？

最小-最大规范化，z-score标准化，按小数定标规范化、独热码处理标称属性数据

2.3 为什么要归一化？

作用：简化计算，提升模型的收敛速度；在涉及一些距离计算的算法时防止具有较大初始值域的属性与具有较小初始值域的属性相比权重过大，有效提高结果精度。

2.3 数据归约

2.4 怎么处理类别特征？

序号编码、独热编码、二进制编码

2.5 有哪些文本表示模型？

词袋模型：把每篇文章看成一袋子词，忽略词出现的顺序。

词嵌入模型：将词向量化，把每个词都映射成低维空间上的一个稠密向量。

4. 异常检测

4.1 有哪些异常检测方法？

基于统计的异常检测方法（p值较小的为异常值）、3 $\sigma$ 原则、箱型图

基于距离的异常检测方法——KNN

基于密度的异常检测方法——LOF

基于集成的异常检测方法——孤立森林

基于聚类的异常检测方法——DBSCAN

参考：

一文详解8种异常检测算法（附Python代码）-CSDN博客

4.2 离群点处理

需要具体分析，一般有如下三种方式：

1.删除。如果想找出一般的规律，而且异常值也不太多，可以考虑删除。因为异常值可能会影响结论。

2.如果进行拟合的时候并没有使模型造成太大偏差，可以放任不管。因为异常值代表的也是真实发生的事件，背后是具体的行为。有些值即使异常，也不会影响模型。

3.视为缺失值进行填充。因为贸然删除数据可能会损失信息，而如果放任不管可能又影响我们的模型，所以可以考虑用均值、临近值进行填充。

4.把异常值单独提取出来做分析。

参考来源：

数据清洗中异常值（离群值）的判别和处理方法_离群值要单独分析吗-CSDN博客

5.特征选择方法有哪些？

过滤式、包裹式、嵌入式

5.1 过滤式选择

先对数据集进行特征选择，再训练学习器，特征选择过程与后续学习器无关。

5.2 包裹式选择

直接把最终要使用的学习器的性能作为特征子集的评价准则，换言之，包裹式特征选择的目的就是为给定学习器选择最有利于其性能、量身定做的特征子集。

5.3 嵌入式选择

5.3.1 什么是嵌入式选择？

将特征选择与学习器训练过程融为一体，两者在同一个优化过程中完成，即学习器训练过程中自动地进行了特征选择。例如岭回归、Lasso回归。

5.3.2 为什么L1正则化更容易获得稀疏解？

因为采用L1范数时，平方误差项等值线与正则化项等值线的交点常出现在坐标轴上，出现每个分量为0

梁慢慢慢慢

关注

22
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
机器学习/数据挖掘面试问题——第11章特征选择与稀疏学习

从大量有噪声的数据中提取出隐含的、有价值的信息的过程。将若干分散数据源中的数据集成到一个统一的数据集合中。存在实体识别问题（同名异义、异名同义、单位统一）、属性冗余问题、数据值冲突问题（规格单位、编码）将特征选择与学习器训练过程融为一体，两者在同一个优化过程中完成，即学习器训练过程中自动地进行了特征选择。例如岭回归、Lasso回归。
复制链接

扫一扫

梁慢慢慢慢 CSDN认证博客专家 CSDN认证企业博客

码龄2年

12: 原创

132万+: 周排名

7万+: 总排名

6267: 访问

: 等级

283: 积分

107: 粉丝

149: 获赞

15: 评论

171: 收藏

私信

关注

热门文章

分类专栏

数据挖掘 1篇
课程内容

最新评论

注意力机制与Transformer
修勾爱吃榴莲: 三连了！写的太棒了！期待大佬更多文章！！！
深度学习面试问题
修勾爱吃榴莲: 大佬评论的前排！文章内容丰富细致，讲解的很详细，期待大佬后续的文章哦！感谢大佬的分享，已三连，期待大佬给我指点一二
机器学习/数据挖掘面试问题——第9章聚类
修勾爱吃榴莲: 想问一下博主，《数据挖掘》这本书具体是哪位作者写的，求电子版。
机器学习/数据挖掘面试问题——第10章降维与度量学习
修勾爱吃榴莲: 感谢博主的分享。想问一下博主，主成分分析和因子分析的区别是什么呀？分别可以用在什么场景呢？
机器学习/数据挖掘面试问题——第11章特征选择与稀疏学习
修勾爱吃榴莲: 想咨询一下博主，如果是用机器学习算法预测空气质量指数的时间变化特征，用哪种算法比较好？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。