我们小组要做的是人岗智能匹配系统,而在匹配之前,最重要的工作就是获取一个人的基本信息。所以,为了让每个人的信息可以更简单地导入程序,我们需要对简历进行关键词的提取。而关键词提取这一块最常用的算法便是tfidf。这个算法可以得到每个词在文章中的权重。
tfidf定义:
tf是词频,代表了某个词在文章中出现的次数。
idf是逆文档频率,表示一个词在所有文章中出现的频率。
而tfidf是将一个词的tf值与idf值进行乘法,以此来获得一个词在该文本中的权重。
文本处理的实现:
-
因为tfidf算法是对词进行计算,所以文本处理的第一步是将一段文本化为一系列的词语。jeasy.analysis.MMAnalyzer是java里用于分词的一个工具