文本挖掘—搜狗语料库数据预处理

最新推荐文章于 2024-07-27 21:46:44 发布

盐神

最新推荐文章于 2024-07-27 21:46:44 发布

阅读量4.5k

点赞数

分类专栏：文本挖掘文章标签：自然语言处理文本预处理文本挖掘搜狗语料库

本文链接：https://blog.csdn.net/muyanmoyang/article/details/45620603

版权

本文涉及文本挖掘中的搜狗语料库数据预处理，提到了语料库的来源及数据库使用MySQL，提供了相关博客链接作为理论参考，并分享了CSDN上的Java项目链接用于将语料库导入数据库。

摘要由CSDN通过智能技术生成

package muyanmoyang.text_classify.Classify;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.io.UnsupportedEncodingException;
import java.lang.reflect.Array;
import java.sql.Connection;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.ResultSetMetaData;
import java.sql.SQLException;
import java.sql.Statement;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import java.util.Set;

import javax.annotation.processing.Filer;

import muyanmoyang.text_classify.toMysql.DBUtil;
import muyanmoyang.text_classify.toMysql.DocBean;

import ICTCLAS.I3S.AC.ICTCLAS50;


/**
 * 搜狗语料库的文本预处理：包括停用词处理、获取存储在MySQL数据库中的语料文本、分词、宽窄字符串互转、
 * 						   对每篇文章初步过滤形成词集合