文本挖掘经典算法实践（待续）

最新推荐文章于 2024-03-18 15:18:33 发布

wangxiafghj

最新推荐文章于 2024-03-18 15:18:33 发布

阅读量429

点赞数

本文链接：https://blog.csdn.net/wangxiafghj/article/details/7756829

版权

通过下载luence core2.9.2.jar和je-analysis-1.5.1.jar库，使用Lucene进行分词和建立索引，本文实践了TF-IDF算法。TF-IDF是一种用于评估词汇在文档集合中的重要性的统计方法，高频率且在其他文档中不常见的词被认为具有更好的分类能力。

摘要由CSDN通过智能技术生成

不算原创，找资料来实现文本挖掘中的经典算法。

首先下载luence core2.9.2.jar库和je-analysis-1.5.1.jar库，使用lucene进行分词建立索引。

一、TF-IDF实现

TF-IDF（term frequency–inverse document frequency）。

TFIDF的主要思想是：如果某个词或短语在一篇文章中出现的频率TF高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来分类。TFIDF实际上是：TF*IDF，TF词频(Term Frequency)，IDF反文档频率(Inverse Document Frequency)。TF表示词条t在文档d中出现的频率。IDF的主要思想是：如果包含词条t的文档越少，IDF越大，则说明词条t具有很好的类别区分能力。

1、ReadFiles

import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.UnsupportedEncodingException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;
import jeasy.analysis.MMAnalyzer;

public class ReadFiles {

    private static List<String> fileList = new ArrayList<String>();
    private static HashMap<String, HashMap<String, Float>> allTheTf = new HashMap<String, HashMap<String, Float>>();
    private static HashMap<String, HashMap<String, Integer>> allTheNormalTF = new HashMap<String, HashMap<String, Integer>>();

    public static List<String> readDirs(String filepath) throws FileNotFoundException, IOException {
        try {
            File file = new File(filepath);
            if (!file.isDirectory()) {
                System.out.println("输入的参数应该为[文件夹名]");
                System.out.println("filepath: " + file.getA