在上一张中我们简单的分析了一下朴素贝叶斯的原理和简单应用,我们提到了它主要使用在文本分析,邮件拦截,情感分析等等场景,这里我们就简单的做一个情感分析的处理,判断对京东上某一个商品的喜好。
1. 数据搜集
这里的数据是我们从京东上爬的某种商品的好评和差评,这里就不详细讲解爬取的过程了。
好评:
差评:
2. 数据处理
由上节我们知道,一个完整的文本不能直接拿来训练,所以在训练之前,我们需要将自己的语句分词,构建词向量,所以我们这里需要先进行分词处理,这里我选择的是结巴分词。
- 分词
# 创建停用词列表
def stopwordslist(filepath):
stopwords = [line.strip() for line in open(filepath, 'r', encoding='utf-8').readlines()]
return stopwords
# 对句子进行分词
def wordCut(sentence):
words = jieba.cut(</