小编典典
这是使用ApacheLucene的可能解决方案。我没有使用最新版本,但使用3.6.2版本,因为这是我所知道的最好的版本。除了之外/lucene-
core-x.x.x.jar,别忘了将/contrib/analyzers/common/lucene-
analyzers-x.x.x.jar下载的存档中的添加到您的项目中:它包含特定于语言的分析器(在您的情况下尤其是英语)。
注意,这将 _仅_基于输入文本词的词干找到它们的频率。然后将这些频率与英语统计数据进行比较。
数据模型
一个词干一词。不同的词可能具有相同的词干,因此具有相同的词干terms。每次找到新术语时,关键字频率都会增加(即使已经找到它-
一个集合会自动删除重复项)。
public class Keyword implements Comparable {
private final String stem;
private final Set terms = new HashSet();
private int frequency = 0;
public Keyword(String stem) {
this.stem = stem;
}
public void add(String term) {
terms.add(term);
frequency++;
}
@Override
public int compareTo(Keyword o) {
// descending order
return Integer.valueO