本项目的目标是基于用户提供的评论,通过算法自动去判断其评论是正面的还是负面的情感。比如给定一个用户的评论:
- 评论1: “我特别喜欢这个电器,我已经用了3个月,一点问题都没有!”
- 评论2: “我从这家淘宝店卖的东西不到一周就开始坏掉了,强烈建议不要买,真实浪费钱”
对于这两个评论,第一个明显是正面的,第二个是负面的。 我们希望搭建一个AI算法能够自动帮我们识别出评论是正面还是负面。
情感分析的应用场景非常丰富,也是NLP技术在不同场景中落地的典范。比如对于一个证券领域,作为股民,其实比较关注舆论的变化,这个时候如果能有一个AI算法自动给网络上的舆论做正负面判断,然后把所有相关的结论再整合,这样我们可以根据这些大众的舆论,辅助做买卖的决策。 另外,在电商领域评论无处不在,而且评论已经成为影响用户购买决策的非常重要的因素,所以如果AI系统能够自动分析其情感,则后续可以做很多有意思的应用。
情感分析是文本处理领域经典的问题。整个系统一般会包括几个模块:
- 数据的抓取: 通过爬虫的技术去网络抓取相关文本数据
- 数据的清洗/预处理:在本文中一般需要去掉无用的信息,比如各种标签(HTML标签),标点符号,停用词等等
- 把文本信息转换成向量: 这也成为特征工程,文本本身是不能作为模型的输入,只有数字(比如向量)才能成为模型的输入。所以进入模型之前,任何的信号都需要转换成模型可识别的数字信号(数字,向量,矩阵,张量...)
- 选择合适的模型以及合适的评估方法。 对于情感分析来说,这是二分类问题(或者三分类:正面,负面,中性),所以需要采用分类算法比如逻辑回归,朴素贝叶斯,神经网络,SVM等等。另外,我们需要选择合适的评估方法,比如对于一个应用,我们是关注准确率呢,还是关注召回率呢?
1. 数据读取
import re
import pandas as pd
import numpy as np
def process_file():
"""
读取训练数据和测试数据,并对它们做一些预处理
"""
global train_comments
global train_labels
global test_comments
global test_labels
train_pos_file = "data/train_positive.txt"
train_neg_file = "data/train_negative.txt"
test_comb_file = "data/test_combined.txt"
df_pos=generate_dataframe(train_pos_file)
df_neg=generate_dataframe(train_neg_file)
df_com=generate_dataframe(test_comb_file)
# TODO: 读取文件部分,把具体的内容写入到变量里面
train_comments = list(df_pos.append(df_neg)['Comment'])
train_labels = list(df_pos.append(df_neg)['Label'])
test_comments = list(df_com['Comment'])
test_labels=list(df_com['Label'])
def generate_dataframe(filepath):
"""
generate a dataframe to store the comments and labels
"""
_comments =