SiameseSentenceSimilarity
SiameseSentenceSimilarity,个人实现的基于Siamese bilstm模型的相似句子判定模型,提供训练数据集和测试数据集.
项目地址:https://github.com/liuhuanyong/SiameseSentenceSimilarity
项目介绍
句子相似度计算是自然语言处理中的一个重要技术手段,主要有两种方法:
1, 基于传统的无监督方式,传统的用于计算句子相似度的方式有很多种,感兴趣的,可以参考我的基于传统方法的句子相似读计算项目:
https://github.com/liuhuanyong/SentenceSimilarity
2, 基于标注数据的句子相似度计算.这个思想大体是将句子相似度计算问题转换成一个相似句子类型判定问题,目前经典的方法是Siamese网络,这是本项目的一个初衷.
数据
数据集主要来源于CCKS2018评测项目微众银行客户问句匹配大赛, 总数据集大小为十万条.数据集样式如下:
'''
怎么我开不了微利貸 怎么开不了户 录制不了 提示上传失败 0
亲为什么我的审批不通过的 为什么还款及时会提示综合评估未通过 1
你好,我借款的验证码发到我以前用的那个手机号码了,我该怎么设置呢 手机号码换了 1
“如何获得微粒贷资格” 为什么没微粒贷啊 1
为什么没接到电话 两天了,怎么还没有给我打电话审核? 1
我的电话已改为 绑定的手机号码能不能更改 1
借贷下来时间 10月国庆期间能借钱不