文本分析--tfidf、word2vec

最新推荐文章于 2024-04-29 15:35:55 发布

ukakasu

最新推荐文章于 2024-04-29 15:35:55 发布

阅读量6k

点赞数

分类专栏：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ukakasu/article/details/83022034

版权

机器学习专栏收录该内容

33 篇文章 0 订阅

订阅专栏

TF-IDF

词频（TF） = 某个词在文章中的出现次数 / 文章总词数或者词频（TF） = 某个词在文章中的出现次数 / 拥有最高词频的词的次数。
逆文档频率（IDF） = log（语料库的文档总数/包含该词的文档总数+1）
TF-IDF = 词频（TF) * 逆文档频率（IDF）

主要应用：

关键词提取，找相似文章，文章自动摘要，作为分类或聚类的输入。

word2vec

word2vec主要分为CBOW（Continuous Bag of Words）和Skip-Gram两种模式。CBOW是从原始语句推测目标字词；而Skip-Gram正好相反，是从目标字词推测出原始语句。CBOW对小型数据库比较合适，而Skip-Gram在大型语料中表现更好。
对同样一个句子：Hangzhou is a nice city。我们要构造一个语境与目标词汇的映射关系，其实就是input与label的关系。
这里假设滑窗尺寸为1
CBOW可以制造的映射关系为：[Hangzhou,a]—>is，[is,nice]—>a，[a,city]—>nice
Skip-Gram可以制造的映射关系为(is,Hangzhou)，(is,a)，(a,is)， (a,nice)，(nice,a)，(nice,city)

主要应用：

推荐（音乐、大V），商品相似度计算，作为分类或聚类的输入。
https://www.zhihu.com/question/25269336

实现：

python：Gensim
java：dl4j
spark：mlib

实战：

https://blog.csdn.net/qq_41664845/article/details/80305101

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
文本分析--tfidf、word2vec

TF-IDF词频（TF） = 某个词在文章中的出现次数 / 文章总词数或者词频（TF） = 某个词在文章中的出现次数 / 拥有最高词频的词的次数。逆文档频率（IDF） = log（语料库的文档总数/包含该词的文档总数+1）TF-IDF = 词频（TF) * 逆文档频率（IDF）主要应用：关键词提取，找相似文章，文章自动摘要，作为分类或聚类的输入。word2vecword...
复制链接

扫一扫

专栏目录

ukakasu CSDN认证博客专家 CSDN认证企业博客

码龄9年

131: 原创

7万+: 周排名

104万+: 总排名

34万+: 访问

: 等级

4173: 积分

79: 粉丝

121: 获赞

74: 评论

469: 收藏

私信

关注

热门文章

分类专栏

python 14篇
java 10篇
HDFS 5篇
mapreduce 6篇
hive 4篇
hbase 3篇
pig 1篇
Hadoop 2篇
机器学习 33篇
大数据平台 14篇
linux 1篇
es 2篇
flume 1篇
深度学习 29篇
keras 5篇
spark 4篇
kafka 4篇
oracle 2篇
druid 1篇
数学 14篇
TensorFlow 10篇

最新评论

python中归一化、标准化模型保存与加载
weixin_50515511: min_max_scaler.inverse_transform()
HBase写入优化
G3-平头哥: 180000毫秒是30分钟？我没看懂
python中归一化、标准化模型保存与加载
十八画生减一画: 请教一下博主怎么反归一化的
python中归一化、标准化模型保存与加载
Goldbery: 你好，为什么我直接调用保存好的归一化模型会出现sklearn.exceptions.NotFittedError: This StandardScaler instance is not fitted yet. Call 'fit' with appropriate arguments before using this estimator. 求指点！
nifi mysql CDC to mysql
AlfredNing: 我想同步一个库下面的所有表，这个是不是要定义好多schema，有点麻烦吧

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。