package muyanmoyang.text_classify.Classify;
import java.io.BufferedReader;
import java.io.File;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.FileWriter;
import java.io.IOException;
import java.io.UnsupportedEncodingException;
import java.lang.reflect.Array;
import java.sql.Connection;
import java.sql.PreparedStatement;
import java.sql.ResultSet;
import java.sql.ResultSetMetaData;
import java.sql.SQLException;
import java.sql.Statement;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.HashSet;
import java.util.Iterator;
import java.util.List;
import java.util.Map;
import java.util.Set;
import javax.annotation.processing.Filer;
import muyanmoyang.text_classify.toMysql.DBUtil;
import muyanmoyang.text_classify.toMysql.DocBean;
import ICTCLAS.I3S.AC.ICTCLAS50;
/**
* 搜狗语料库的文本预处理:包括停用词处理、获取存储在MySQL数据库中的语料文本、分词、宽窄字符串互转、
* 对每篇文章初步过滤形成词集合