tfidf初步成果

在人岗智能匹配系统的预处理阶段,团队采用tfidf算法进行关键词提取。该算法结合词频(tf)与逆文档频率(idf)计算词的权重。通过分词、计算词频、求idf以及相乘得到每个词的权重。使用java的jeasy.analysis.MMAnalyzer进行分词,最终实现了预期的关键词提取效果。
摘要由CSDN通过智能技术生成

我们小组要做的是人岗智能匹配系统,而在匹配之前,最重要的工作就是获取一个人的基本信息。所以,为了让每个人的信息可以更简单地导入程序,我们需要对简历进行关键词的提取。而关键词提取这一块最常用的算法便是tfidf。这个算法可以得到每个词在文章中的权重。

tfidf定义:

tf是词频,代表了某个词在文章中出现的次数。
tf计算公式

idf是逆文档频率,表示一个词在所有文章中出现的频率。
![idf计算公式](https://img-blog.csdnimg.cn/img_convert/d37125e3311c1a637968b6f07e17bb98.png

而tfidf是将一个词的tf值与idf值进行乘法,以此来获得一个词在该文本中的权重。
在这里插入图片描述

文本处理的实现:

  • 因为tfidf算法是对词进行计算,所以文本处理的第一步是将一段文本化为一系列的词语。jeasy.analysis.MMAnalyzer是java里用于分词的一个工具

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值