NLP特征工程（待完善细节）

最新推荐文章于 2024-01-25 01:54:26 发布

==樛木==

最新推荐文章于 2024-01-25 01:54:26 发布

阅读量1.3k

点赞数

分类专栏：深度学习之个人总结文章标签： TF-IDF n-gram NLP 特征工程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_38493025/article/details/85282777

版权

深度学习之个人总结专栏收录该内容

11 篇文章 1 订阅

订阅专栏

参考：https://blog.csdn.net/m0epNwstYk4/article/details/78861537
最近在做文本的特征工程构建，陆陆续续搜集到一些公认的对文本表征能力比较强的特征，比如频次法、tf-idf、互信息方法、N-Gram、Word2Vec等，文本特征包含以上这些但也不限于这些。

频次法

频次法，顾名思义，十分简单。它记录每篇文章的次数分布，然后将分布输入机器学习模型，训练一个合适的分类模型。对这类数据进行分类，需要指出的是：在统计次数分布时，可合理提出假设，频次比较小的词对文章分类的影响比较小。因此，我们可合理地假设阈值，滤除频次小于阈值的词，减少特征空间维度。

TF-IDF

TF-IDF 相对于频次法，有更进一步的考量。词出现的次数能从一定程度反应文章的特点，即 TF，而 TF-IDF，增加了所谓的反文档频率，如果一个词在某个类别上出现的次数多，而在全部文本上出现的次数相对比较少，我们就认为这个词有更强大的文档区分能力。TF-IDF 是综合考虑了频次和反文档频率两个因素的方法。

互信息方法

互信息方法也是一种基于统计的方法，计算文档中出现词和文档类别的相关程度，即互信息。

N-Gram

基于 N-Gram 的方法是把文章序列，通过大小为 N 的窗口，形成一个个 Group。然后对这些 Group 做统计，滤除出现频次较低的 Group，再把这些 Group 组成特征空间，传入分类器，进行分类。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
NLP特征工程（待完善细节）

参考：https://blog.csdn.net/m0epNwstYk4/article/details/78861537最近在做文本的特征工程构建，陆陆续续搜集到一些公认的对文本表征能力比较强的特征，比如频次法、tf-idf、互信息方法、N-Gram、Word2Vec等，文本特征包含以上这些但也不限于这些。频次法频次法，顾名思义，十分简单。它记录每篇文章的次数分布，然后将分布输入机器学习模...
复制链接

扫一扫

专栏目录

==樛木== CSDN认证博客专家 CSDN认证企业博客

码龄7年

98: 原创

5万+: 周排名

227万+: 总排名

23万+: 访问

: 等级

2621: 积分

66: 粉丝

84: 获赞

76: 评论

342: 收藏

私信

关注

分类专栏

最新评论

【bug解决】No OpKernel was registered to support Op 'CudnnRNN' with these attrs.
ShAn DiAn: 哥，你现在解决了吗，求帮助
【bug解决】You should consider upgrading via the 'pip install --upgrade pip' command.
Reconciler: 非常感谢！一下就装上了！!
【ML小结1】ML入门
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)使用更多的站内链接；(2)使用标准目录。
IDEA连接Spark集群执行Scala程序
一个不知道取什么昵称的网友: 大佬牛批
【bug解决】No OpKernel was registered to support Op 'CudnnRNN' with these attrs.
不二651: 请问现在搞清楚了吗？因为我用tensorflow-gpu也还是出现这个问题，不知道怎么解决

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。