7. 循环神经网络与NLP
7.1数据处理基础
数值特征与类别特征
文本处理
第一步:文本切分 (tokenization)
第二步:统计词频
创建一个字典 (实际中经常使用Hash 表) 进行词频统计
初始字典为空
遍历文本,并按如下更新字典:
如果单词不再字典中, 加入该单词 (𝑤, 1)
否则将其词频加1
直到完成整个遍历
按照词频降序进行排序
将词频索引化
如果词汇太多,则只保留排序在前 的k个单词 (如取𝑘 = 10000)
第三步:独热编码
7.2RNN模型
7.3LSTM模型