文本特征向量化

最新推荐文章于 2022-12-29 09:22:31 发布

滴水-石穿

最新推荐文章于 2022-12-29 09:22:31 发布

阅读量708

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_34971932/article/details/104136326

版权

一、词袋模型

词袋模型将所有的词构建成一个向量，不考虑顺序，只统计每篇文档钟词出现的次数，直接构建特征。
词袋模型的问题：
。。无法区分同义词、多义词：
如：用户浏览羽绒服后，只召回羽绒服，无法召回相近含义的“棉衣”
。。维度高
计算缓慢、存储量大xin
。。信息量小
一个词能传达的信息有限，没有考虑词之间上下文信息，不可调节；这个和N-gram相比，有很大缺陷
。。不稳定
受表达方式，习惯等影响，每个人都不一样

二、TF-IDF

相比与传统得词袋模型，将全局信息加入重要性度量

三、N-gram

N-gram模型可以提高特征区分度，但是会带来稀疏性

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
文本特征向量化

一、词袋模型词袋模型将所有的词构建成一个向量，不考虑顺序，只统计每篇文档钟词出现的次数，直接构建特征。词袋模型的问题：。。无法区分同义词、多义词：如：用户浏览羽绒服后，只召回羽绒服，无法召回相近含义的“棉衣”。。维度高计算缓慢、存储量大xin。。信息量小一个词能传达的信息有限，不可调节；这个和N-gram相比，有很大缺陷。。不稳定受表达方式，习惯等影响，每个人都不一样...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。