基于搜索的问答系统
Question从知识库中寻找相似度最高的问题,返回对应问题的答案
对于问题,首先进行分词,然后预处理:
1)拼写检查
2)寻找单词原型
3)stop words
4)words filter
5)同义词
然后文本的表示,将文本转换成向量的形式,结构化的数据,数学中的公式,文本方式:
- 0,1,1,… Boolean vector
- const vector
- tf-if 形式
- word vector
5)seq2seq
然后给定向量计算相似度
1)欧氏距离
2)cos distance
…
接着进行过滤,根据相似度排序 返回结果
现在的问答系统核心点在于文本的表示和相似度的计算
知识图谱的核心点在于实体抽取和关系抽取
文本处理的流程
原始文本->分词->清洗->Normalization ->feature extraction ->Modeling
清洗包括 :
1)无用的标签 如
2)特殊符号 !α
3)停用词
4)大写转小写
标准化包括 stemming & Lemmazation
Word Sementation Tools
Jieba
SnowNLP
LTP
HanNLP
FudanNLP
分词工具底层