笔记:动手学深度学习pytorch(文本预处理,语言模型与数据集,循环神经网络)
- 文本预处理- 文本文本是一类序列数据,一篇文章可以看作是字符或单词的序列- 处理步骤读入文本分词建立字典,将每个词映射到一个唯一的索引(index)将文本从词的序列转换为索引的序列,方便输入模型- 读入文本这里用一部英文小说,即H. G. Well的Time Machine,作为示例,展示文本预处理的具体过程。import collectionsimport re...
原创
2020-02-13 15:41:34 ·
753 阅读 ·
0 评论