分析文档:
就是分词的过程
1,根据空格进行字符串的拆分,得到一个单词单词列表。
2,把单词统一转换成小写。
3,去除标点符号
4,去除停用词
停用词:无意义的词。
每个关键词都封装成一个Term对象中。
Term中包含两部分类容:关键词所在的域,关键词本身。
不同的域中拆分出来的相同的关键词是不同Term.
Nearth---全文检索技术(luncen)/005(全文检索流程-分析文档)
最新推荐文章于 2019-11-23 10:10:50 发布
分析文档:
就是分词的过程
1,根据空格进行字符串的拆分,得到一个单词单词列表。
2,把单词统一转换成小写。
3,去除标点符号
4,去除停用词
停用词:无意义的词。
每个关键词都封装成一个Term对象中。
Term中包含两部分类容:关键词所在的域,关键词本身。
不同的域中拆分出来的相同的关键词是不同Term.