获取数据集
1、开放数据集(NLTK提供了很多数据集)
2、网页抓取
3、登录,搜索日志
数据预处理
1、除去html等无用标签(lxml、html5lib),拼写纠错(pyenchant),大小写转换(正则匹配),除去标点符号(正则匹配),处理编码,除去长度过小word,除去停用词(NLTK Stopwords,停用词就是常用却没有具体意义的word,如to)等
2、分句(正则匹配、NLTK sent_tokenize),分词(正则匹配、NLTK word_tokenize),词性标注(NLTK pos_tag),词形还原(Stemming、Lemmatisation)
生成词向量
1、GloVe
2、FastText
3、WordRank
4、BOW词袋模型、SOW词集模型
5、word2vec
模型训练
1、sklearn
2、nltk