处理和转化自己的数据
1)过滤损坏或丢失的数据。
2)填补损坏或丢失的数据。
3)增加潜在问题的鲁棒性
从你的数据中提取有意义的特征
1)数字特征:一般为整形,如年龄等
2)类别特征:例如性别
3)文本特征:例如电影名,描述等
有以下几个方法处理:
1.Tokenization : 标记化
2.Stop word removal: 停用词移除
3.Stemming: 字干搜索
4.Vectorization: 向量化
4)其他特征:如video,地理位置(经纬度)等
可用的库:
NLTK in Python;
OpenNLP in Java;
Breeze and Chalk in Scala