现有的检索系统,无论是受限领域的检索还是互联网搜索引擎,一般都是
基于关键字检索(1.相关答案多2.意图表达差3.语言层,未触及语义层)。
1、word分词器
2、ansj分词器
3、mmseg4j分词器
4、ik-analyzer分词器
5、jcseg分词器
6、fudannlp分词器[复旦大学]
Frequently Asked Questions,FAQ,即通过提取问题特征进行相似度计算来返回排序后的答案,
问题解析:主要包括分词、词性标注、句法分析、命名实体识别、问题分类、问题扩展等。
分词:中英文分词存在很大的区别,英文单词之间是以空格作为自然分界符的,而中文是以字为基本的书写单位,词语之间没有明显的区分标记。 分词中最常见的是基于规则的词典匹配的方法,当出现歧义分词时,也有最大切分(向前、向后、前后结合)、最少切分、全切分等策略,但都存在一定不足。在受限领域的分词,都需要构造自身的领域词典, 来提高分词的准确率。1、word分词器
2、ansj分词器
3、mmseg4j分词器
4、ik-analyzer分词器
5、jcseg分词器
6、fudannlp分词器[复旦大学]