利用卷积神经网络(CNN)构造社区问答系统

    /* 版权声明:能够随意转载,转载时请标明文章原始出处和作者信息 .*/
                                                     author: 张俊林        
  


   问答社区算是一类已经比較成熟的互联网应用了,国外的比方QuoraStackOverflow。国内的比方老派的百度知道,新一代的知乎,都算是代表性的社交类问答社区。问答社区本质上就是个人肉知识库,通过一段时间的积累,会累积相当多以<问题。答案>方式存在的知识。

  

     除了这些通用的问答社区外还有非常多垂直领域的问答社区,比方我们畅捷通的会计家园。就是拥有数百万財会人员的知识交流社区,財会人员能够在社区提出自己的一些工作和生活中的疑问,会有非常多热心网友或领域专家帮你答疑解惑,会计家园长这个样子:


    这样的问答社区往往有信息冗余的问题。就是说历史上已经有不少同样的问题以及答案,可是非常多用户并不清楚这点,往往还会问出同样的问题,当然两个问题虽然是同一个问题,可是因为语言表达的灵活性,在字面上看起来可能问题还是有区别。就比方以下两个问题:

问题A:注冊资本认缴制下实收资本的账务怎样处理?

问题B:认缴制下成立的公司。一開始的账务处理是什么样的,实收资本要做吗?求解

     为了能够添加信息的复用率。我们已经使用自然语言处理、搜索技术以及一些深度学习的技术做了问题推荐系统,在用户提问的时候就将语义相关的问题推荐出来。假设用户看到类似的问题直接看答案即可,所以用户提问的时候看到的这样的交互界面:

  

    可是我们想更进一步,是否能在用户问出问题后,直接把答案交给用户?说实话,这事实上是搜索引擎的近乎终极目标。就是用户提出疑问,直接给出答案。眼下搜索引擎的交互方式还是比較原始的,比方用户发出问题。然后人要在搜索结果里面再筛一遍,找到真正自己关心的答案。所以事实上是技术+人工的方式。将来的搜索引擎交互方式应该是用户问问题。搜索引擎直接给答案。当然详细体现形式能够有多种,比方眼下比較火的聊天机器人本质上就是在往这个目标走的一个中间形式。也就是说是这样的方式:


    将来的话,假设全息投影技术普及后,应该就是科幻电影里常见的交互模式。那时候随时随地召唤出全息天使全天候为您服务,您不用操心雾霾天他有没胆出门的问题…..比方以这样的附体方式:


   嗯,上面是口味比較重的用户的选择,大多数用户可能会更喜欢这样的附体方式:


闲话少叙,让我们言归正传而且紧张严肃起来。形式化地说。如今我们面临的是例如以下问题:


找到与Qnew语义同样的问题Qi后,将Qi相应的答案Ai推荐给用户,就完毕了用户提出新问题后。直接告诉用户答案的任务。所以这个问题本质上是个问句Paraphrase问题。就是说推断两个句子是否语义等价的问题。

(读者小Y画外音Qi:请说人话!

     作者小张回答Ai请去京东买本初中数学教材。)

我们用Word Embedding加上卷积神经网络CNN来解决问题。CNN不必说了,眼下在图像处理领域基本已经横扫,未来两年出现1000CNN网络叠加起来解决应用问题也不必惊奇。

Word Embedding更是深度学习在文本处理领域的技术基石。假设如今做应用不用这两样东西预计你出门不太好意思跟同行打招呼吧。为了面子上挂得住,咱得掏出这两把刷子刷刷。以证明咱确实拥有这两把刷子。

一种直观的思路会用两个CNN来解决问题。其架构图例如以下:


就是说首先把两个要推断语义是否等价的句子转换为Word Embedding形式,作为整个神经网络的输入层,然后CNN1通过卷积层和池化层来抽取出一个句子的语义特征,CNN2抽取出另外一个句子的语义特征,之后两个CNN的池化层拼接起来作为兴许三层神经网络的输入层,兴许三层神经网络通过隐层对两组语义特征进行非线性变换。最后通过线性层分类输出,得出两个句子是语义同样(比方输出1)或者语义不同(比方输出0)的分类结果。

可是,我们想换种思路来做这个任务。能不能把输入层改造成真正的二维结构。就像一张图片那样。然后套上一个CNN来解决问题呢?让我们来试试,首先第一个问题是。给定两个句子SentenceASentenceB,怎样把CNN的输入层改造成类似图片的二维结构?

在做之前,我们假设两个句子例如以下:(说明:这个样例仅仅是为了方便绘图和举例,真实的训练和測试样例是会计家园的实际问题对,长度大约在10几个字到几十个字左右)

SentenceA:电脑多少钱?

SentenceB:计算机价格?


能够这么做:

Step1:把SentenceA分割成3-Gram表达形式,于是SentenceA变成例如以下形式

SetA={电脑多。脑多少。多少钱}


Step2:把SentenceB分割成3-Gram表达形式。于是SentenceB变成例如以下形式

SetB={计算机,算机价,机价格}


       Step3:把SetA的元素作为纵坐标。SetB的元素作为横坐标,将两个输入改造成二维结构,就像以下的图形:

 

Step4:那么这个矩阵格子里面的值怎么填呢?用横坐标和纵坐标相应的语言片段的语义类似性填充就能够。于是新问题又产生了,给了两个语言片段。比方“多少钱”和“机价格”,怎样计算它们的语义类似性呢。请移步看Step5


Step5:计算两个语言片段的语义类似性。

此时锣鼓点响起,我们的小杀器Word Embedding该粉墨登场了。

首先能够用Word2Vec训练出每一个汉字的Word Embedding,也就是其低维向量表示。一定程度上代表其包括的语义信息。

那么3-GRAM包括了三个汉字,这3-GRAM的语义向量Word Embedding该怎么表示?能够简单粗暴地把其三个汉字的Word Embedding相应维度上的值累加求和即可,看上去霸王硬上弓包办婚姻,可是事实上这是一种通常的做法,一般应用效果还能够。嗯,我们土豪界办事情通常就是这么任性。

这样两个3-GRAM片段相应的Word Embedding都有了,剩下的就简单了,它们两个的语义类似性直接用Cosine计算两个Word Embedding在语义空间的向量夹角就成。一般语义越类似。Cosine得分越大。


Step 6:有了Step5的锦囊妙计。就能够完形填空。填充矩阵中相应格子的值了,假设填充完图形例如以下:


那么类似图片的二维输入结构就完毕了。

这个矩阵代表什么含义呢?代表的是两个句子随意两个语言片段之间的语义类似性。

有了上面填充好的二维矩阵作为神经网络的输入层,那么后面就简单了,你就当做输入的是个图片。然后直接套上一层或者多层CNN,最后再加上一个全联接分类层就齐活了。改造完的神经网络结构例如以下:


敲定了网络结构。剩下的就是训练神经网络了。我们利用眼下已经做好的问题推荐系统。通过人工找到语义同样表达不同的句子对作为训练集的正例,把一些语义相近可是不同的句子对作为训练集的负例。然后就能够训练这个基于Word EmbeddingCNN的神经网络了。

通过实验我们发现,多层CNN并不能带来性能优势。所以终于仍然採用了一层CNN结构。然后用Torch 7训练模型。调整超參数比方隐层神经元个数,卷积层filter的个数等,终于最优分类精度在90.36%左右。效果还不错。说明祭出CNN这个大杀器和Word Embedding这个小杀器还是有效的。

当然这跟负例中两个句子对的语义相关性有一定关系,非常明显负例句子对语义相关性越高。分类难度越大,后面我们还会不断添加分类难度对模型进行调整。

致谢:感谢畅捷通公司智能平台沈磊、薛会萍、桑海岩和黄通文等同事在构建模型和整理训练数据方面的工作。




扫一扫关注微信号:“布洛卡区” ,深度学习在自然语言处理等智能应用的技术研讨与科普公众号。



  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Wendasns问答社区系统是一款开源,高效,易于二次开发的问答系统,拥有问答模快、文章模快、话题模快,内置ucentre用户系统、管理组与用户组权限、邮件设置、用户管理、分类管理、问题管理、回答管理、文章管理、评论管理、话题管理、通知管理、举报管理、友情链接、公告管理、广告管理。内置独特的用户管理,支持多应用接入;问答与文章支持目录化伪静态URL自定义访问,内容、社交、付费,三者合一,涵盖积分、付费打赏、分享等功能,激发用户主动创作内容,扩散有价值的信息。 功能特点: 开放源码 WendaSNS是一款开放源码的PHP问答社区系统,基于Thinkphp 6.X版本开发而成,具有强大的负载能力和稳定性。 LayUi前端 前端基于LayUi框架,经典模块化极易扩展和定制,一套模板可以同时的运行在PC、平板、手机等多设备上。 多数据库 完美支持Mysql、MariaDB、PostgreSQL等数据库存储,方便各种环境定制。 更好的SEO 支持路由规则自定义,可以定制自己的专属URL显示规则。同时支持页面自定义。 多入口登录 支持社交QQ、Sina微博、微信、百度帐号、手机、邮箱等方式登录系统。 轻管理 管理后台可以轻松完成网站、问答、文章、视频等功能管理,支持多角色分权限管理。 轻运营 支持手机号码或邮箱注册,通过短信或邮件进行验证,保证用户真实性。 互动强 评论、点赞、通知……随时互动,简单快捷;所有内容一键分享,迅速扩散。 安装说明: 1、解压后,设置运行环境要求PHP7.1+,运行目录为 public 2、运行http://你的域名/ 进行安装,后台管理http://你的域名/admin.php 3、开启伪静态访问 使用宝塔面板用户---在配置文件,找到以下内容删除。     location ~ .*\.(gif|jpg|jpeg|png|bmp|swf)$     {         expires      30d;         error_log off;         access_log off;     } 更新Wendasns V1.1.5 修复文章详情页里,发表评论提示文章禁止评论,再次评论,提交的表单数据空值 修复用户中心->我的收藏->选项卡切换,都是显示的问题数据列表 修复账号设置->修改密码,提交异常 修复打开编辑签名,显示undefined 修复删除文章后,跳转出错 修复提问或回答时,插入的图片大过显示区,会溢出 修复回答时,文字设置字体加粗、斜体等,被过滤了 修复主题分享时,微博或QQ空间显示的分享图片是百度的 修复话题列表页,话题里的文章或问题数不对 修复用户中心->我的粉丝->我的粉丝/我的关注选项卡里,取消关注提示用户不存在 修复问题详情页里,调整问题补充、回答、答案编辑的编辑器形式,且已回答的用户,不在显示"我来回答"按钮 修复有管理权限的用户,问题详情页里,显示补充问题、删除、回答编辑功能 修复用户有管理权限,但补充问题时,提示要登录账号 修复搜索结果页里,用户主页链接去掉html后缀 修复文章没有标签,文章列表里还是显示空标签 修复问题详情页,新增点击图片,显示大图功能 更新Wendasns V1.1.0 修复已知BUG 更新内核Thinkphp6.0.7,支持PHP8.0
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值