基于机器学习算法的情绪分析模型,通过学习大量已标注过情感倾向的文本(即有监督下的机器学习),使得模型最终能成功判断全新文本的情感倾向。
训练数据来源于GitHub,总共119883条标注了情感倾向的微博金融相关评论,包括 52520条积极倾向评论(标注为1),14296条消极倾向评论(标注为-1),53067条中性评论(标注为0)。
1.训练数据预处理
import os
import pickle
import jieba
import jieba.posseg as pseg
import numpy as np
import pandas as pd
import csv
import re
定义数据预处理函数
# 加载个人词典【为了使分词更加准确,整合了台大、大连理工、知网的情感词典,并加载入jieba中】
dictPath = os.path.join('emdict','userdict')
jieba.load_userdict(dictPath)
# 加载停用词【取自哈工大停用词表】
stopwordsPath = os.path.join('emdict','stopword.plk')
with