19.有哪些文本表示模型，他们各有什么优缺点

最新推荐文章于 2024-03-08 09:42:12 发布

haidixipan

最新推荐文章于 2024-03-08 09:42:12 发布

阅读量1.5k

点赞数

分类专栏：技术面试文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haidixipan/article/details/84775492

版权

技术面试专栏收录该内容

57 篇文章 1 订阅

订阅专栏

1.词袋模型/N-gram

每篇文章表示成一个N维向量，每一维度表示一个单词，值为这个词对这篇文章的重要程度，计算公式为：

TF-IDF(t,d) = TF(t,d)*IDF(t)

其中，TF(t,d)为单词t在文档d中出现的频率，IDF(t) = log(文章总数/(包含单词t的文章总数+1)) ，IDF公式可理解为如果一个词出现的文章数越多那么说明它越是一个通用词，通用词对文档内容贡献度比较小。但是词袋忽略了由几个词组成一个意思这种情况（“如NBA吐槽大会”这种，分解成了NBA和吐槽大会，结果匹配了很多李诞这样和NBA完全不相关的物料），因此后续由N-gram模型为

基于词袋模型的改进，N-gram将连续出现的N个词组成的词组也作为一维放到向量表示中去。但是N-gram不能识别两个不同的词由相同的主题。

3.主题模型

参考：https://blog.csdn.net/haidixipan/article/details/84299039对主题模型LDA的介绍

4.词嵌入模型/深度学习模型

参考：https://blog.csdn.net/haidixipan/article/details/84299039对主题模型word2vec的介绍，即将词由K维向量表示，如果一个文档由N个词，那么组成了一个N*K维的矩阵，如果仅仅把这个矩阵作为浅层模型输入往往难以得到满意的结果（模型不知道词与词之间的关系，提取不出更高维的语义特征），而深度学习模型为我们提供了一个更好的自动特征工程方式，每个隐层都对应不同的抽象特征，尤其是卷积神经网络和循环神经网络结构在文本表示中效果突出。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
19.有哪些文本表示模型，他们各有什么优缺点

1.词袋模型/N-gram每篇文章表示成一个N维向量，每一维度表示一个单词，值为这个词对这篇文章的重要程度，计算公式为：TF-IDF(t,d) = TF(t,d)*IDF(t)其中，TF(t,d)为单词t在文档d中出现的频率，IDF(t) = log(文章总数/(包含单词t的文章总数+1)) ，IDF公式可理解为如果一个词出现的文章数越多那么说明它越是一个通用词，通用词对文档内容贡献度...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。