特征工程（总结）

最新推荐文章于 2024-06-24 17:17:23 发布

笨拙的石头

最新推荐文章于 2024-06-24 17:17:23 发布

阅读量2k

点赞数 2

分类专栏：机器学习特征工程文章标签：特征工程数据处理机器学习标准化正则化

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_32241189/article/details/79824264

版权

本文详细介绍了特征工程的各个环节，包括数据清洗、文本数据处理、数值型数据处理、特征选择及降维方法。内容涵盖了预处理、缺失值处理、文本数据的词袋法、TF-IDF、数值数据的标准化、归一化、多项式扩展等技术，并讨论了特征选择的策略和降维技术如PCA和LDA。

摘要由CSDN通过智能技术生成

一、数据清洗

1.1 预处理

1）数据处理工具的选择： 一般选用数据库处理和Python等工具处理。

2）查看数据的元数据以及数据特征

1.2 缺省值处理（删除、补全）

缺省值处理的一般步骤：确定缺省值范围、去除不需要的字段、填充缺省值内容（经验值、均值、中位数、众数、推测值）、重新获取数据。

1.3 格式、内容错误的数据（修改、删除）

1.4 逻辑错误的数据（修改、删除）

1.5 不需要的数据（删除）

1.6 关联性验证

二、文本数据处理

1、词袋法、词集法

1）词袋法。词袋法计算文档中每个单词出现的次数（词频）。

2）词集法。词集法是判断单词是否出现在文档中，出现就为1，否则为0。它是考虑到文档次数相差太大的时候，词袋法不适用的情况。

2、TF-IDF（词频-逆文档频率）

1）词频-逆文档频率。

TF-IDF认为：单词的重要性随着它在文本中出现的次数成正比增加，也就是单词的出现次数越多，该单词对于文本的重要性就越高。同时单词的重要性会随着在语料库中出现的频率成反比下降，也就是单词在语料库中出现的频率越高，表示该单词与常见，也就是该单词对于文本的重要性越低。

2）计算公式

TF-IDF=TF*IDF

其中，TF=文档中词出现的次数/文档中词的总个数；IDF=log（总的文档个数/出现该词的文档数量+1），这里的-1操作主要是防止分母为0（也就是说出现该词的文档数量为0）

3）WordToVictor（直接转化为词向量）

最低0.47元/天解锁文章

笨拙的石头

关注

2
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

笨拙的石头 CSDN认证博客专家 CSDN认证企业博客

码龄9年

25: 原创

73万+: 周排名

143万+: 总排名

53万+: 访问

: 等级

2126: 积分

764: 粉丝

675: 获赞

57: 评论

4616: 收藏

私信

关注

分类专栏

最新评论

深度学习之RNN(循环神经网络)
kaiwen 陈: 有点小错误，不是w倍的s3对s2*s2对w，就是s3对s2*s2对w，只是s3对s2是w而已。这点要注意。
深度学习之RNN(循环神经网络)
kaiwen 陈: 注意到s3是w*s2的函数，而s2也是w的函数，即s3=w*s2(w).所以s3对w求导要分两步，按照乘积的求导公式y=v(x)*u（x）,y对x求导为v*u|+u*v|，所以s3对w求导的结果为s3对w求（此时s2看作常数）加上w倍的s3对s2*s2对w（链式求导法则）。所以最终的结果就是偏s3+/偏w+偏s3/s2*偏s2/w.
深度学习之RNN(循环神经网络)
S_PIa: 隐藏状态可以理解为: S=f(现有的输入+过去记忆总结) ,这里的S是哪个h吧
深度学习之RNN(循环神经网络)
弔仁: 最好理解为每一层都是共享的
深度学习之RNN(循环神经网络)
Heyyy_: 感谢博主！中间有个BP算法的网址好像错了，打不开

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。