流程
1,语料准备:训练模型的语料
2,使用词袋模型将句子分词
eg:使用Jieba,[我爱你,我非常爱你]---->[‘我’, ‘爱’, ‘喜欢’, ‘你’, ‘非常’]
3,使用Word2Vec将词袋中每个词转换成向量
4,使用向量来训练模型(使用sklearn.neural_network.MLPClassifier 人工神经网络分类模型)训练并保存模型
5,使用训练模型来分析待分析数据
a,获取待分析数据
b,清洗数据(删除缺失值,重复值,少于5个字评论)
c,对待分析数据进行分词,Word2Vec转换成向量、
d,使用上步模型进行预测model.predict(comment_vec)
6,将预测结果用图表画出,如饼图
其他注意点
df[[‘LieMing’]] #当在一个DataFrame中取一列时使用(此时取出的格式还是DF格式)
jieba.cut生成的是一个生成器,generator,也就是可以通过for循环来取里面的每一个词。
np.concatenate((a, b) #生成一个连接a和b的list的array
!pip install something #安装某包,可以直接在jupyter里安装,也可以在anaconda命令行中安装
word2Vec 词向量转换 方法:gensim,tensorflow,PaddlePaddle
tqdm_notebook(x_train) #tqdm针对jupyter notebook添加了专门的进度条美化方法