一、序列模型
分类问题与预测问题
图像分类:当前输入−>当前输出
时间序列预测:当前+过去输入−>当前输出
二、数据预处理
2.1 特征编码
- 数值特征不适合表示类别,因此一般使用独热编码
- 国家编码从1开始,1~197,因为实际国籍有可能不填(对应0)。
- 使用199维特征向量表达一个人的特征。
2.2 文本处理
- 按字母处理:将文本切分为字母序列
- 按单词处理:将文本切分为单词序列
三、文本预处理与词嵌入
- 读取数据集。
- 词汇切分:将原始文本以文本行为单位进行切分。
- 构建词索引表:打印前几个高频词及索引并将每一条文本行转换成一个数字索引列表。
四、RNN模型
输入:The cat sat on the mat
模型结构:
结果:训练精度: 89.2%;验证精度: 84.3%;测试精度: 84.4%。
五、门控循环单元(GRU)
基本思想:不是每个观察都同等重要
基本结构:
总结: