机器学习_特征选择

最新推荐文章于 2024-08-29 17:42:52 发布

小豆芽_

最新推荐文章于 2024-08-29 17:42:52 发布

阅读量314

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_38034312/article/details/78153852

版权

机器学习专栏收录该内容

24 篇文章 0 订阅

订阅专栏

1.特征选择：特征很多，但是只有部分特征与当前任务有关，所以要选出来啦

2.剔除的特征：无关特征

冗余特征：冗余特征具有两面性，一方面去除他们会减轻学习负担，另一方面如果某个冗余特征恰好完成了学习任务的‘中间概念’，则有益。eg求体积。底面积相对长和宽为冗余

3.子集搜索：

【1】用先验知识来选择特征子集，可能没办法考虑周全

【2】假设没先验知识，只能暴力枚举，暴力枚举转化为树去解决

【3】产生两个问题；如何搜索p248/如何评价

4.子集评价；信息熵

【1】信息熵的来源：是概率事件的所带来信息的期望，代表事件的不确定性。

【2】信息的衡量之所以定义-log（pi），一方面要求信息量随概率单减（理解一下：概率越小所带来的信息量越多）另一方面信息量的可加性，两独立事件的所带来的信息量为他们各自的信息量之和

【3】把数据集想成一个抽取样本的随机事件，抽取一个样本带来的信息量去解决。

【4】注意：信息增益越大p249，意味着用特征子集分类前后信息量差值越大，特征子集评价越高

5.过滤式选择

【1】定义：先特征选择再训练学习器

【2】relief 特征选择方法的思想：特征本来就是用来分类的，所以可以用距离取度量特征。异类距离比同类距离越大，说明属性对样本的区分能力越高。

【3】此方法是基于所有的样本点计算得出的来的（大致体会一下数据流）

【4】relief的多分类的改进p250

6.包裹式选择

【1】包裹一词体现：直接将分类器的误差作为评价标准，为学习器选择最有利于性能的特征子集

【2】典型包裹式特征选择方法：lvw大致流程，首先随机参生特征子集，其次带入学习器并求出误差，迭代循环，求出误差最小的特征子集

7.交叉验证法

【1】确实检验学习器的性能时，用训练集计算肯定不太好，不代表泛化能力

【2】所以将数据分为两部分：训练集和验证集

8.嵌入式选择

【1】特征选择过程和学习器训练过程融为一体 eg .lasso即l1范数正则化

【2】l1正则化问题可以通过近端梯度下降法来解决p253

近端一词体现该方法是近端梯度下降法的改进

9.问题

【1】枚举和算法树之间到底存在什么关系

【2】信息熵评价子集真的有效吗？概率又没有变

【3】拉斯维加斯方法和蒙特卡洛方法，理解有误的

【4】近端梯度下降法最后一步的过程并未推导，习题11.8

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

小豆芽_ CSDN认证博客专家 CSDN认证企业博客

码龄8年

90: 原创

76万+: 周排名

173万+: 总排名

20万+: 访问

: 等级

2822: 积分

9: 粉丝

28: 获赞

6: 评论

96: 收藏

私信

关注

热门文章

分类专栏

ppt 1篇
matlab 1篇
逗比日记 4篇
量化投资
机器学习 24篇
python 16篇
数据挖掘
日记
并行计算 1篇
ubuntu 3篇
C++ 2篇
算法 1篇
NLP 6篇
linxu 6篇
业务
Git 1篇
Hadoop
Hive 1篇
剑指offer 1篇
数学 1篇

最新评论

机器学习_直线/平面的函数形式
伊赛芙: 平面的点法式应该是：A(x-x0)+B(y-y0)+C(z-z0)=0。
Python_删除指定字符串
赫连达回复 Tesla_License: string.replace并非原地操作，而是会返回操作的结果，你如果使用[code=python] new_string=string.replace('abc','') [/code] 就可以看到想要的结果了
Python_删除指定字符串
Tesla_License: 其实上这样做的话是没有删除的，它依旧存在；[code=python] string = input（）#这里输入abc print(string.replace("abc",""))#表面上看是删除了 print(string)#打印出来还是abc [/code]
机器学习_概率密度函数和似然函数
qq_281617953: 最大似然函数跟概率密度函数，当进行一次事件时，系统的最大似然函数就是概率密度函数
机器学习_miml多示例多标记算法
纵横阡陌: 朋友你好，请问你多示例研究的如何呢，请教交流下好吗

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。