https://blog.csdn.net/lipengcn/article/details/85313971
(文本匹配详解,有监督,无监督)
2019.7.7新总结:
项目流程新梳理:
-
只要输入的数据都会重新建立索引。
用户调用2接口时, 通过建立的索引返回候选句子,WMD进行无监督 语义层面上的相似度计算排序,
用户输入会标明是 普通问答进行匹配,还是指令语句进行解析, 相似度值设置阈值,无法识别的阈值,和相似语句的阈值,
阈值都很低的话,说明输入语句在匹配模型或者场景分类模型里不存在,就返回无法识别或者相似。 -
高于相似阈值的话,开始调用匹配模型或者场景分类模型。
场景分类模型:模型对输入指令语句预测场景类别,预测的类别在候选排名靠前的句子中,就输出这个类别;不在的话,和相似度靠前 的前几个候选语句投票的类别,
普通问答的:输入句子和候选句子进行意图匹配预测,预测结果为正例的,排名最靠前的即为最终的结果。
- 实体解析:
解析出人名, 时间, 地名
bilstm 序列标注本身就很好了, 可是难免有错误,crf是为了在输出的时候,考虑上下文序列的关系。
crf学习一个状态矩阵。相当于增加了一层约束,考虑句子正常的结构,不会输出非法的序列。提高预测序列的准确率。
先分词, 然后 bilstm + CRF