把jieba分词开源的词典作为base,从东上的手机评论中,找出新词。
先从京东上把评论抓下来。京东只让看到每个商品的前1000条评论,经过清洗、大小写转换、简繁体转换、排重后共100M数据。
统计高频词,采集特征。特征包括自由度、左右熵、词频,首尾字的成词能力,3个与词性相关的特征等,共10多个特征。
分别用了随机森林和神经网络(keras平台)来做分类,随机森林的效果好些。
目前识别到的13000多新词(jieba分词的词典没有收录的词):
http://121.89.176.173/new_words.html
京东评论的情感分析结果(目前效果还不太好,持续改进中)
http://121.89.176.173/index.html