笔记:动手学深度学习pytorch(文本预处理,语言模型与数据集,循环神经网络)
- 文本预处理
- 文本
文本是一类序列数据,一篇文章可以看作是字符或单词的序列
- 处理步骤
读入文本
分词
建立字典,将每个词映射到一个唯一的索引(index)
将文本从词的序列转换为索引的序列,方便输入模型
- 读入文本
这里用一部英文小说,即H. G. Well的Time Machine,作为示例,展示文本预处理的具体过程。
import collections
import re
...
原创
2020-02-13 15:41:34 ·
722 阅读 ·
0 评论