论文题目: The Ubuntu Dialogue Corpus: A Large Dataset for Research in Unstructured Multi-Turn Dialogue Systems
语料库:
a. train.csv和论文所述一致。 1,000,000个例子,50%阳性(标签1)和50%阴性(标签0),训练数据。一共有3列数据。详细如下:
- Context 上下文信息。截止到目前的聊天信息和问题。
- Utterance 真实回答。
- Label 标签。两个值:1(真实回答)和0(不是真实回答)。
b.valid.csv/test.csv格式和论文一致。
valid.csv 19,561行(19560条数据),词汇量为115,688。校验数据
test.csv:18,921行(18920条数据),词汇表大小为115,623。测试数据
一共11列数据。具体数据说明如下:
- Context上下文信息。截止到目前的聊天信息和问题。
- Ground truth utterance 真实回答。
- Distractor0 ….8 9个干扰回答。
算法思想
参数说明
- h0 ,初始变量。应该是需要在模型中去学的参数。
- -
学到的知识点:
共现矩阵:
tf-idf “术语频率 - 逆文档”频率
https://en.wikipedia.org/wiki/Tf%E2%80%93idf