【论文阅读】The Ubuntu Dialogue Corpus

最新推荐文章于 2023-07-26 22:03:55 发布

aha3229

最新推荐文章于 2023-07-26 22:03:55 发布

阅读量1.3k

点赞数

论文题目： The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems

语料库：

a. train.csv和论文所述一致。 1,000,000个例子，50％阳性（标签1）和50％阴性（标签0），训练数据。一共有3列数据。详细如下：

Context 上下文信息。截止到目前的聊天信息和问题。
Utterance 真实回答。
Label 标签。两个值：1（真实回答）和0（不是真实回答）。

b.valid.csv/test.csv格式和论文一致。
valid.csv 19,561行（19560条数据），词汇量为115,688。校验数据

test.csv：18,921行（18920条数据），词汇表大小为115,623。测试数据
一共11列数据。具体数据说明如下：

Context上下文信息。截止到目前的聊天信息和问题。
Ground truth utterance 真实回答。
Distractor0 ….8 9个干扰回答。

算法思想

dual_lstm模型
参数说明

h0 ,初始变量。应该是需要在模型中去学的参数。
-

学到的知识点：

共现矩阵：
tf-idf “术语频率 - 逆文档”频率
https://en.wikipedia.org/wiki/Tf%E2%80%93idf

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【论文阅读】The Ubuntu Dialogue Corpus

论文题目： The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems语料库：a. train.csv和论文所述一致。 1,000,000个例子，50％阳性（标签1）和50％阴性（标签0），训练数据。一共有3列数据。详细如下：Context...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。