所做工作需要对中文文本分词并移除停用词
/**
* @function 使用两个字典进行分词,并移除停用词
* @author Peter
* @date 2014-07-17
*/
package fnlp.segment;
import java.util.List;
import edu.fudan.ml.types.Dictionary;
import edu.fudan.nlp.cn.tag.CWSTagger;
import edu.fudan.nlp.corpus.StopWords;
// import gnu.trove.set.hash.THashSet;
public class MultiDictSegment {
public static void main(String[] args) {
// TODO Auto-generated method stub
String str = "健康咨询描述: 我怀第二个孩子的时候就血压高了,一直到孩子3,4岁吧才吃药。" +
"但吃什么药血压都是在100-140.我今年做了个泌尿系肉。医生给我开了硝苯地平控释片。" +
"我觉得吃了一段时间老是咳嗽,我想问一下我能还吃吗 ";
try {
// 添加单词到字典中
/*String str1 = "波依定";
String str2 = "厄贝沙坦氢氯吃噻嗪";
THashSet<String> ths = new THashSet<String>();
ths.add(str1);
ths.add(str2);*/
Dictionary dict = new Dictionary();
// 添加两个字典文件
dict.addFile("./models/dict.txt");
d