加载和预处理数据
接下来我们需要对原始数据进行变换然后用合适的数据结构加载到内存里。
Cornell电影对话语料库是电影人物的对话数据,它包括:
- 10,292对电影人物(一部电影有多个人物,他们两两之间可能存在对话)的220,579个对话
- 617部电影的9,035个人物
- 总共304,713个utterance(utterance是对话中的语音片段,不一定是完整的句子)
这个数据集是比较大并且多样的(diverse),语言形式、时代和情感都有很多样。这样的数据可以使得我们的chatbot对于不同的输入更加鲁棒(robust)。
# 使用PyTorch实现Chatbot
本教程的主要内容翻译自[PyTorch官方教程](https://pytorch.org/tutorials/beginner/chatbot_tutorial.html)。
可以在这里下载数据以及源代码(链接:https://pan.baidu.com/s/1_REdg83F-5qtkNnKZf1NQg
提取码:7xuw)