NLP自然语言处理-机器学习和自然语言处理介绍（三）

皇儒无上

已于 2022-07-25 16:47:34 修改

阅读量791

点赞数 1

分类专栏： NLP 文章标签：自然语言处理机器学习搜索引擎

于 2022-07-25 16:45:27 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huangruwushang/article/details/125978349

版权

本文介绍了自然语言处理中的新词发现和TF-IDF概念。TF-IDF是一种衡量词重要性的方法，常用于搜索引擎、文本摘要和相似度计算。TF-IDF优势在于可解释性和计算速度，但受分词效果影响，且缺乏语义和语序信息，不适合复杂任务。

摘要由CSDN通过智能技术生成

NLP自然语言处理-机器学习和自然语言处理介绍-新词发现和TF-IDF
1. 新词发现
（1）为什么要做新词发现
①　如果没有词表，那我们如何发现词；
②　随着数据量的增加，旧的词表会逐步满足不了后续的需求；
③　补充词表有助于下游任务的实现。
④　词相当于一种固定搭配，词的内部是稳固的，也叫内部凝固度
；而词的外部是不稳定的，称为左右熵
。
例如下图：河北这个词是稳固的，但是后边跟的就不是固定的了。
在这里插入图片描述
（2）何为重要词
①　当我们对文章进行分词处理后，需要利用词对文档进行理解，那么我们需要的就是文档中的重要词；如下：

②　假如一个词在某类文本（假设为A类）中出现次数很多，而在其他类别文本（非A类ÿ

最低0.47元/天解锁文章

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

皇儒无上 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。