文本分析——分配单词权重

最新推荐文章于 2022-07-03 16:42:27 发布

超人汪小建(seaboat)

最新推荐文章于 2022-07-03 16:42:27 发布

阅读量3k

点赞数

文章标签： nlp tfidf 词频词权重

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wangyangzhizhou/article/details/79535547

版权

前言

文本处理中很多时候会需要给每个单词分配权重，有了权重以便后续进一步处理。常用的算法主要是TF-IDF。

TF

TF，即Term Frequency。我们可以将文档看成由若干词（term）组成，那么文档中某个term出现的频率就是TF。词频和词权重存在关系，可以用来作为词权重的衡量因素之一。

IDF

IDF，即Inverse Document Frequency。TF算法存在一个问题：比如某文档中多个term出现的次数相同，则不好判别他们之间哪个更重要。因此又引入逆文档频率(IDF)，某个term的IDF可定为：

IDF = log(\frac{T}{t})

其中，T为统计样本中总文档数，t为包含某term的文档数。由此说明包含某term的文档数越多，该term越不重要。

获取IDF方式

其实有几种方式来统计IDF。
* 自己收集样本库进行统计。
* 第三方统计好的IDF表。
* 借助百度或谷歌搜索引擎，这种方式不准确。随便取个m值假设为总文档，再搜索某个term得到n条结果，则认为n除以m即为IDF。

TF-IDF

有了前面的TF和IDF就可以通过他们一起决定某个Term的权重。定义TF-IDF为TF乘以IDF。

实现代码

https://github.com/sea-boat/nlp_lab/tree/master/tf_idf

————-推荐阅读————

我的2017文章汇总——机器学习篇

我的2017文章汇总——Java及中间件

我的2017文章汇总——深度学习篇

我的2017文章汇总——JDK源码篇

我的2017文章汇总——自然语言处理篇

我的2017文章汇总——Java并发篇

——————广告时间—————-

公众号的菜单已分为“分布式”、“机器学习”、“深度学习”、“NLP”、“Java深度”、“Java并发核心”、“JDK源码”、“Tomcat内核”等，可能有一款适合你的胃口。

鄙人的新书《Tomcat内核设计剖析》已经在京东销售了，有需要的朋友可以购买。感谢各位朋友。

为什么写《Tomcat内核设计剖析》

欢迎关注：

这里写图片描述

超人汪小建(seaboat)

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

超人汪小建(seaboat)

CSDN认证博客专家 CSDN认证企业博客

码龄14年

670: 原创

1万+: 周排名

762: 总排名

262万+: 访问

: 等级

2万+: 积分

4583: 粉丝

1355: 获赞

710: 评论

1306: 收藏

私信

关注

热门文章

最新评论

我的新书《Java编程动手学》
Kwan的解忧杂货铺@新空间代码工作室: 博主的文章总是带着深思熟虑，给予我新的学识，每篇博客都是一次心灵的洗礼，你的分享不仅教育了我，也丰富了我的内心世界。期待你的未来更新，继续前行！
Tomcat内核、集群、参数及性能
超人汪小建(seaboat): 哈哈，好多年前的代码了
Tomcat内核、集群、参数及性能
Lv_Jin_Gang: * @author seaboat * @date 2016/4/11 * @version 0.1 * * <pre> * <b>copyright: </b>ctg * </pre> * * <pre> * <b>email: </b>849586227@qq.com * </pre> * * <pre> * <b>blog: </b>http://blog.csdn.net/wangyangzhizhou * </pre> * * <pre> * Please go to the url below to get all statements. * </pre> * @see http://xxxxxxudal/ctg-udal-sqlparser
Tomcat内核、集群、参数及性能
Lv_Jin_Gang: 我看你写的udal的源码了，只可惜在电信那会没多看你们的源码
从JDK源码看String(上)
梦凝哲雪: JDK8 还是 char数组 9已经变成 byte了

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

超人汪小建(seaboat) 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。