RNN与NLP
2. 统计词频(->dict):把每个单词映射到一个正整数(字典的key,value,key的个数叫词汇量)。把词频按从高到低排序,然后把词频换成index,从1开始数,然后保留常用词,去掉低频词(可能是人名或拼写错误),这样可以在ont-hot编码时向量的维度变小,减小计算量。1. Tokenization(string->list):把文本变成列表。3. 按照one-hot编码:编码后向量的维度就是第二步字典中的词汇量。不能用标量表示类别特征。
原创
2024-01-21 21:59:45 ·
511 阅读 ·
0 评论