数据处理
课程来源 : YouTube wangshuseng https://www.youtube.com/watch?v=NWcShtqr8kc&t=0s
PPT : https://github.com/wangshusen/DeepLearning
年龄是数值特征
性别是二分类特征
国籍是分类特征
对国籍进行one-hot encoding ,因为国籍之间是不能表示大小的。
注意将0保留 当作“未知”类别,比如一些缺失的数据。
例子:
Why using one-hot vectors?
明显不合理,用标量表示categorical feature 没有意义
processing Text Data
把文本变成单词
用哈希表记录词频。
完成后,对哈希表进行排序,由高到低。
换成index之后,目的 保留常用词,删掉低频词。
为什么去掉低频词?
1.没有意义
2.字典大,计算量大,容易overfitting
One-hot Encoding