【论文阅读】The Ubuntu Dialogue Corpus

论文题目: The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems

语料库:

a. train.csv和论文所述一致。 1,000,000个例子,50%阳性(标签1)和50%阴性(标签0),训练数据。一共有3列数据。详细如下:

  • Context 上下文信息。截止到目前的聊天信息和问题。
  • Utterance 真实回答。
  • Label 标签。两个值:1(真实回答)和0(不是真实回答)。
    训练数据格式

b.valid.csv/test.csv格式和论文一致。
valid.csv 19,561行(19560条数据),词汇量为115,688。校验数据

test.csv:18,921行(18920条数据),词汇表大小为115,623。测试数据
一共11列数据。具体数据说明如下:

  • Context上下文信息。截止到目前的聊天信息和问题。
  • Ground truth utterance 真实回答。
  • Distractor0 ….8 9个干扰回答。
    valid 和 test 数据格式

算法思想

dual_lstm模型
参数说明

  • h0 ,初始变量。应该是需要在模型中去学的参数。
  • -

学到的知识点:

共现矩阵:
tf-idf “术语频率 - 逆文档”频率
https://en.wikipedia.org/wiki/Tf%E2%80%93idf

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值