Research and Implementation of Railway Technical Specification Question Answering......论文笔记

论文题目:Research and Implementation of Railway Technical Specification Question Answering System Based on Deep Learning(基于深度学习的铁路技术问答系统研究与实现

文章来源:2020 IEEE 5th Information Technology and Mechatronics Engineering Conference (ITOEC 2020)(2020年IEEE第五届信息技术和机电一体化工程会议(ITOEC 2020))

论文摘要:Abstract — In recent years, the significant progress in deep learning and natural language processing technology has provided high efficient technical solutions for the two key problems of user intension recognition, and question and answer semantic matching in the intelligent question and answer field. The improvement of the accuracy of the intelligent question answering system enables its application in special business fields possible. The railway technical specifications have the characteristics such as many knowledge points, wide coverage and many digital specifications, making it difficult for railway employees to learn and master them, and making it difficult to meet the work requirements on technical specifications. This paper proposes a solution for the railway technical specification intelligent question answering system based on deep learning. The experimental test shows that the accuracy rate of question and answer matching of this scheme is 96.85%, with high accuracy, which can be used to provide real-time, accurate and convenient intelligent consultation service of technical management specifications for railway employees and promote the improvement of work efficiency.

文章下载地址:https://sci-hub.se/10.1109/itoec49072.2020.9141721

论文笔记:

系统需求特征:1,语言标准化(行业本身特征有利于提取和构建)2,答案准确性和可靠性。3,使用方便

 

铁路技术法规知识的特点:

  1. 每一个知识点都是一个特定事实
  2. 每个实体间关系是分离且不同的
  3. 基于前面两个事实,不能用传统的三元组。

知识库的构建策略:(好处:只需要计算用户问题和知识点之间的相似度)

1,向量和语义向量构成多维向量。

2,知识点被分成两种类型:短文本知识点和长文本知识点。

短文本知识点:短句子结构和完整的知识。直接通过用户问题计算语义相似度。

长文本知识点:用完整段落表示知识点,通过用户问题陈述来计算相似度(但是匹配度并不高)

系统架构:

用户输入信息(语言或文本)——相似度计算——从知识库中匹配最佳答案

自然语言处理层:语音识别函数识别并把语音转换为文字。

算法匹配层:相似度计算和匹配

交互处理层(答案生成):把知识标题和细节联系在一起生成答案,同时把答案转换成语音。

 

用户问题和知识点的匹配可以被分为两种文本相似度的匹配,用DSSM来捕获文本信息和提高匹配精确率。

 

DSSM:一共有三层(输入层、表示层和匹配层),把两个不同的输入映射到相同的语义空间,有监督学习,cosine计算相似度,softmax计算概率。

输入层把句子转换成文本序列(术语向量),转换过程:单词分割和one-hot编码。

表示层使用CNN,V(m, n)矩阵作为输入层,低维稠密矩阵W(n, k)为权重;卷积层:提取输入的上下文信息,并且生成特征矩阵;池化层:提取全文句子特征,并且提取每个特征矩阵的最大价值;全连接层:把高维向量转为低维向量。

匹配层根据使用情景有2种计算方式,本文使用的是cosine函数计算,(未提及另一种计算方式)

实验数据的获得和预处理:8600个正样本训练集,负样本从正样本中随机构造。用8:1:1的比例把数据分为:训练集、验证集和测试集。

 

模型的实现和验证:用百度飞浆平台来建立一个CNN模型。迭代10次,4层卷积层,卷积核3-6个,batch size 128,学习率0.001

总结:根据铁路领域的特点,没有用传统的三元组来构建知识库,而是基于百度飞浆搭建一个CNN模型来提取输入的上下文信息,生成特征矩阵。再用DSSM模型在匹配层计算语义相似度,然后输出答案。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值