数据挖掘论文-基于朴素贝叶斯的豆辦评论文本情感分析

摘要:

本文探讨了基于朴素贝叶斯算法的文本情感分析方法,特别针对豆瓣网站上的评论数据。文章首先概述了情感分析的重要性和发展历程,指出了现有方法的局限性,包括文本数据的多样性和复杂性、多语言和跨文化情感分析的困难,以及处理大规模数据集时的效率和可扩展性问题。

针对这些问题,文章提出了一种改进策略,梳理了基于机器学习和深度学习的情感分析方法,并探讨了如何利用大数据技术提高情感分析的效率和可扩展性。作者提出了一种结合传统机器学习和深度学习的方法,旨在提高情感分析的准确性和效率。

研究方法采用了多项式朴素贝叶斯模型,这是一种常用的文本分类方法,适用于文本数据的多项式分布。文章详细介绍了朴素贝叶斯分类的基本原理和步骤,包括先验概率的计算、特征独立性假设、似然概率的计算、后验概率的计算以及分类决策。

在数据预处理方面,文章描述了使用Python的jieba库对豆瓣电影《流浪地球》的评论进行分词处理,并提取了高频词汇。通过词云图展示了积极和消极评论的关键词,反映了观众对电影的不同情感倾向。

模型训练和测试部分,文章描述了数据准备、分词处理、特征提取、数据集构建、划分训练集和测试集、模型选择、模型训练的过程。使用了朴素贝叶斯分类器进行情感分析,并评估了模型的性能。

实验结果显示,模型的准确率为54.9%,表明在测试数据上,分类器能够正确分类54.9%的情感标签。文章还探讨了通过修改训练集和测试集的比例来提高模型的准确率,并分析了特征重要性和情绪标签的变化。

最后,文章总结了研究成果,并提出了未来研究的方向,包括引入更先进的模型、跨文化情感分析和大规模数据集处理。同时,指出了研究的不足之处,如研究方法的局限性和模型参数更新的需求,并强调了将数据挖掘技术应用到电影平台的现实意义。

 

关键词:

朴素贝叶斯算法;文本情感分析;数据挖掘;豆瓣评论;自然语言处理

 

1引  言

情感分析作为自然语言处理领域的一个重要分支,其目标是通过计算方法识别和提取文本中的主观信息,并对文本的情感倾向进行分类。随着互联网的快速发展,用户生成的文本数据量急剧增加,情感分析技术在商品评论分析、舆情监控、信息预测等多个领域展现出其重要价值。

 

1.1国内外研究进展

 

情感分析的研究可以追溯到20世纪90年代,早期的研究主要集中在词典基方法,即通过情感词典匹配文本中的词汇来识别情感倾向。随着机器学习技术的发展,基于机器学习的方法逐渐成为主流,其中包括朴素贝叶斯、支持向量机(SVM)、深度学习等技术。近年来,深度学习方法,尤其是卷积神经网络(CNN)和循环神经网络(RNN),在处理大规模数据集时表现出色,成为情感分析领域的研究热点。

 

1.2目前方法存在的问题

 

尽管情感分析技术取得了显著进展,但仍存在一些问题和挑战。首先,文本数据的多样性和复杂性使得情感分析的准确性难以保证。其次,现有方法在处理多语言和跨文化情感分析时仍存在困难。此外,随着数据量的增加,如何提高情感分析的效率和可扩展性也是当前研究面临的问题。

 

1.3本文的切入点

 

针对上述问题,本文旨在探讨情感分析的最新研究进展,并提出改进策略。首先,本文将梳理基于机器学习和深度学习的情感分析方法,并分析其优缺点。其次,本文将探讨如何利用大数据技术提高情感分析的效率和可扩展性。最后,本文将提出一种结合传统机器学习和深度学习的方法,以提高情感分析的准确性和效率。

 

1.4研究进展

 

情感分析技术的应用范围广泛,从商品评论分析(游棉州,2022)到社交媒体数据挖掘(张娜等,2019)均有涉及。随着移动互联网技术的发展,网络文本信息量迅速增长,情感分析在帮助消费者了解商品口碑方面发挥了重要作用(刘策等,2021)。然而,现有的情感分析库在特定领域(如美食评价)的效果并不理想,需要更精细化的模型来提高分析的准确性。

在处理大规模数据集时,传统的情感分析方法面临挑战。郭浩翔(2021)提出了基于大数据的情感分析模型,通过MapReduce混合模型和CBOW混合词向量模型,提高了情感分析的效率和准确性。此外,机器学习技术,尤其是朴素贝叶斯和SVM,在情感分析中也显示出了良好的性能(胡梦雅等,2020;严军超等,2019)。

个性化推荐系统是情感分析的另一个重要应用。时英昊(2018)提出了一种面向短文本情感分析的个性化推荐方法,通过挖掘用户评论中的潜在情感,提高了推荐系统的效果。深度学习技术在情感分析中的应用也取得了显著进展,汪健(2017)通过混合堆叠深度学习特征的模型,提高了中文文本情感分类的准确性。

尽管情感分析技术取得了一定的成果,但仍存在一些挑战。鹿鹏(2017)指出,交互式互联网技术的目标是赋予计算机类似人一样的情感理解能力,这需要情感分析技术不断进步。崔连超(2015)在无监督和有监督学习中文文本情感分析的研究中,提出了改进的算法,提高了分类准确率。

 

2研究方法或原理

2.1基本原理和步骤

朴素贝叶斯分类基于贝叶斯定理和条件独立性假设。在本次实验中,采用多项式朴素贝叶斯模型,它是一种常用的文本分类方法。多项式模型将文本数据视为多项式分布,其中每个词语的出现次数作为观测值。该模型适用于文本数据,因为它可以很好地处理词语的多重出现。

步骤:

  1. 先验概率:首先计算每个类别 𝐶𝑘Ck​ 的先验概率 𝑃(𝐶𝑘)P(Ck​),这通常是通过将类别 𝐶𝑘Ck​ 在整个训练数据中出现的频率来估计的。
  2. 特征独立性假设:朴素贝叶斯分类器假设特征之间相互独立,即给定类别 𝐶𝑘Ck​ 的条件下,特征 𝑋𝑖Xi​ 的概率与其它特征无关。这意味着似然概率 𝑃(𝑋1,𝑋2,...,𝑋𝑛∣𝐶𝑘)P(X1​,X2​,...,Xn​∣Ck​) 可以分解为各个特征概率的乘积:

    20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image001.png&pos_id=3hUhmYFW

  3. 似然概率:计算给定类别 𝐶𝑘Ck​ 下观测到特征集合 𝐷D 的概率,根据特征独立性假设,这可以分解为各个特征给定类别的概率的乘积。
  4. 后验概率:利用贝叶斯定理计算给定特征集合 𝐷D 属于每个类别 𝐶𝑘Ck​ 的后验概率:

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image002.png&pos_id=b08UdUqP

  1. 分类决策:选择具有最高后验概率的类别作为新样本 𝐷D 的预测类别。

 

2.2思路和方法

本研究首先对豆瓣评论文本进行预处理,包括去除停用词、标点符号和进行分词处理。然后,构建词汇表,并使用词袋模型将文本转换为特征向量。接下来,基于训练数据集,使用多项式朴素贝叶斯算法估计每个类别的先验概率和条件概率。最后,对于新的评论文本,计算其属于各个类别的后验概率,并将其分类到后验概率最高的类别中,如图1所示。

流程图:

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image003.png&pos_id=vnDgGxxQ

图1朴素贝叶斯分析过程

2.3公式描述

贝叶斯公式:

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image004.png&pos_id=6QaB0ji0

说明:

𝑃(𝐴∣𝐵)P(AB) 是在给定 B 发生的条件下 A 发生的概率(后验概率)

𝑃(𝐵∣𝐴)P(BA) 是在 A 发生的条件下 B 发生的概率(似然概率)𝑃(𝐴)P(A) 是 A 发生的先验概率

𝑃(𝐵)P(B) 是 B 发生的边缘概率

 

朴素贝叶斯公式:

P(Y = c|X) = P(X|Y = c) * P(Y = c) / P(X)

说明:其中,P(Y = c|X) 表示给定输入文本 X 情况下,它属于类别 c 的概率。P(X|Y = c) 是朴素贝叶斯分类器的核心部分,它表示在类别 c 的情况下,特征向量 X 出现的概率。P(Y = c) 表示类别 c 的先验概率,即在没有任何观察之前,样本属于类别 c 的概率。P(X) 是一个归一化因子,用于确保概率的和等于 1。

 

3数据结果处理与分析

3.1数据预处理与分析

本研究使用的数据集来源于豆瓣网站的用户评论(使用 web scraper 在豆瓣网爬虫获得),特别是针对电影《流浪地球》的评论。该数据集具有以下特点:包含丰富的文本信息,用户情感表达多样,以及具有时间戳和用户信息等元数据,如图3.1所示。

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image005.png&pos_id=JNckrwPu

图3.1流浪地球csv部分截图

3.2数据清洗和预处理步骤

3.2.1把流浪地球的评论划分为积极评论和消极评论,如图3.2,图3.3所示:

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image006.png&pos_id=adk4udpo

图3.2流浪地球积极评论(部分)

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image007.png&pos_id=z01QloCL

图3.3流浪地球消极评论(部分)

3.2.2对评论进行分词操作:

积极评论/(消极评论)分词代码如下:

import jieba

def word_extract():

     #读取文件

     corpus=[]

     path='D:/Desktop/pos(neg).txt'

     content=''

     for line in open(path,'r',encoding='ANSI',errors='ignore'):

           line=line.strip()

           content +=line

     corpus.append(content)

     stop_words=[]

     path='D:/Desktop/pos(neg).txt'

     for line in open(path,encoding='ANSI'):

         line=line.strip()

         stop_words.append(line)

        

     split_words=[]

     word_list=jieba.cut(corpus[0])

     for word in word_list:

          if word not in stop_words:

               split_words.append(word)

     dic={}

     word_num=10

     for word in split_words:

          dic[word]=dic.get(word,0)+1

     freq_word=sorted(dic.items(),key=lambda x:x[1],

                          reverse=True) [: word_num]

     print('样本:'+corpus[0])

     print('样本分词效果:'+'/'.join(split_words))

     print('样本前10个高频词:'+str(freq_word))

word_extract()

积极评论分词效果:从上面的图,可以发现积极评论分词效果整体上看起来是合理的,大部分词语都已经被正确地分割开来。分词是自然语言处理中的一个重要步骤,它涉及将连续的文本切分成有意义的单元,这些单元通常是词语。在这个文件中,分词效果较好,大多数句子结构都保持了原意,没有出现明显的语义断裂。

从分词结果中可以看出,一些专有名词、人名和电影名称等都得到了保留,如“顿爷”、“坦叔”、“金哥”、“流浪地球”、“吴京”等。同时,一些技术性的词汇和情感表达也得到了保留,如“特效”、“美术”、“满分”、“骄傲”、“自豪”、“振奋”等。

关键词效果方面,通过高频词的提取,我们可以对文本的主题有一个大致的了解。样本中的前10个高频词包括标点符号和一些最常用的中文词汇,如“,”(逗号)、“的”、“。”(句号)、“了”、“是”等。这些高频词汇显示了文本的语言表达习惯和风格。同时,也出现了一些与主题密切相关的关键词,如“中国”、“我”、“和”、“科幻”,这些词表明了文本内容与中国、科幻题材有关,同时也体现了个人观点和情感的表达。如图3.4,图3.5所示。

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image008.png&pos_id=IetHlmHL

图3.4积极评论分词结果(部分截图)

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image009.png&pos_id=2QyPJ5xW

图3.5积极评论中出现频率最高的十个词

 

消极评论分词效果:从上面的图,可以分析出:分词效果基本准确,能够将句子拆分成有意义的词汇和短语。专有名词和术语得到了正确的识别和保留,如“流浪地球”、“刘慈欣”等。一些技术性的词汇和术语也被准确分词,如“热核聚变”、“科幻”等。分词结果中包含了一些语气词和助词,如“了”、“是”等,这些词汇在理解句子语气和结构上有一定作用。除了连接词和助词,还有一些实体词和名词短语,如“流浪地球”、“画面”、“特效”等,这些词汇直接与文本的主题和内容相关。高频词中也包含了一些反映文本情感和评价的词汇,如“失望”、“糟糕”、“恶心”等,这些词汇揭示了文本作者对电影《流浪地球》的负面评价。如图3.6,图3.7所示。

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image010.png&pos_id=vtB3IG9K

图3.6消极分词结果(部分截图)

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image011.png&pos_id=Qmajdtoy

图3.7消极评论中出现频率最高的十个词

3.2.3分词操作后绘制词云:

import wordcloud

import jieba

import matplotlib.pyplot as plt

import numpy as np

from PIL import Image

pic = Image.open("D:/Desktop/cat.jpg")

shape = np.array(pic)

wc = wordcloud.WordCloud(mask=shape, font_path="C:\Windows\Fonts\simsun.ttc", background_color="white", contour_color='purple',contour_width=3,

max_font_size=100)

text = open(r'D:/Desktop/pos.txt', "r", encoding='ANSI').read()

cut_text = jieba.cut(text)

result = " ".join(cut_text)

wc.generate(result)

wc.to_file("D:/Desktop/cloud.jpg")

plt.imshow(wc, interpolation="bilinear")

plt.axis("off")

plt.show()

积极评论分词的词云效果:

在词云中,“流浪地球”、“科幻”、“电影”、“刘慈欣”等词汇可能会以较大的字体出现,这表明这些是讨论的焦点。如果“尴尬”、“煽情”等词汇字体较大,这可能表明评论中存在对电影某些方面的情感负面评价。“特效”、“美术”等词汇如果较为突出,可能意味着评论者对电影的视觉效果给予了高度评价。“吴京”如果作为一个突出词汇,可能表示他的表现或者角色在评论中被广泛讨论。“中国”、“华语”等词汇的突出可能反映了观众对国产科幻电影的认同和期待。“好莱坞”如果作为一个显著词汇,可能表明评论者在将这部电影与国际电影产业标准进行比较。“灾难片”、“人类”、“情感”等词汇的出现可能揭示了电影的主要内容和主题。“刘慈欣”作为原著作者和电影监制,如果他的名字在词云中较为突出,这可能表明观众对他的认可和作品的尊重。词汇如“中国科幻”、“硬拍”如果明显,可能表示观众认为这部电影标志着中国科幻电影工业的一个重要进步。“不错”、“第一次尝试”等积极词汇的突出可能反映了观众对电影的正面反响和对未来作品的期待。

如图3.8所示。

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image012.png&pos_id=Y1CRiimr

图3.8积极评论的词云

消极评论分词的词云效果:

“特效”作为评论中频繁出现的词汇之一,表明观众对电影的视觉效果给予了一定的认可。特效可能被视为电影的一个亮点。“煽情”此词的频繁出现可能表明观众认为电影在情感表达方面过于夸大或不自然,这可能引起了一些观众的不满。“剧情”经常被提及,可能意味着观众对电影的故事情节持批评态度,认为剧情存在问题或不合理之处。“尴尬”此词的出现可能反映了观众在观看电影时感到的不适或不自然,这可能与电影的情感表达或某些场景的处理有关。“台词”多次提及可能意味着观众对电影中的对话和台词有意见,认为它们不够自然或令人信服。“科幻”作为电影的主要类型,科幻的提及表明观众在评价电影是否符合科幻电影的标准和期望。“灾难片”与”科幻”并列的提及可能表明观众在比较电影与典型灾难片的元素,或许认为电影更偏向于灾难片而非硬科幻。

如图3.9所示。

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image013.png&pos_id=cKMhPm2J

图3.9消极评论的词云

3.3模型训练和测试

3.3.1描述模型训练过程,如图4.1所示。

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image014.png&pos_id=mHJ3PIXf

图4.1模型训练过程

  1. 数据准备:首先,需要准备积极(positive)和消极(negative)评论的数据集。这些数据集通常包含用户对产品或服务的评价,用于训练情感分析模型。如图3.2,图3.3。
  2. 分词处理:使用jieba库对中文评论进行分词处理,将句子拆分成单独的词语。如图3.4,图3.6.
  3. 特征提取:将分词后的句子转换为特征向量。在这个例子中,特征向量是一个字典,其中包含句子中的每个词及其对应的布尔值(True或False),表示该词是否存在于句子中。如图4.2所示。
  4. 数据集构建:将特征向量与相应的情感标签(POSITIVE或NEGATIVE)组合,形成训练数据集。如图4.2所示。

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image015.png&pos_id=0oyn8ZxZ

图4.2文本转换为特征及特征选取

  1. 划分训练集和测试集:将数据集分为训练集和测试集。在这个例子中,60%的数据用于训练,40%的数据用于测试。如图4.3所示。

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image016.png&pos_id=WgVOMBiM

图4.3划分训练集(60%)与测试集(40%)

  1. 模型选择:选择朴素贝叶斯(Naive Bayes)分类器作为情感分析模型。朴素贝叶斯分类器是一种基于贝叶斯定理的简单概率分类器,适用于文本分类任务。如图4.4所示。
  2. 模型训练:使用训练集数据训练朴素贝叶斯分类器。如图4.4所示。

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image017.png&pos_id=AjvYnBiB

图4.4模型训练

 

3.3.2测试集的选择和划分

  1. 选择:测试集是从原始数据集中随机选取的40%,确保测试集能够代表整个数据集的分布。
  2. 划分:测试集从积极和消极评论中各选取40%,以保持类别平衡。

 

3.3.3模型性能评估指标

    在代码中,通过调用cu.accuracy(model, test_data)计算准确率,并通过model.most_informative_features()获取信息量较大的特征。此外,通过pcls.prob(sent)获取每个预测的情感类别的概率。

3.4结果可视化分析

3.4.1展示情感分析的结果

(1)实验结果

实验结果显示,模型的准确率为54.9%,这意味着在测试数据上,分类器能够正确分类54.9%的情感标签。这个准确率不是特别高,可能需要进一步优化模型或增加训练数据。如图5.1所示。

(2)情感分析结果

从情感分析的结果来看,模型在某些情况下能够准确地判断出情感倾向,例如对于明显积极或消极的评论。然而,也存在一些判断不够准确的情况,比如“特效”被判断为负面,这可能是因为模型没有很好地理解“特效”在电影评论中通常是积极的含义。另外,“刚开始吧还不错,但是后面越来越卡,差评”这句话虽然包含“差评”,但整体上被判断为正面,这表明模型可能过于依赖于某些积极的词汇,而没有充分考虑句子的整体语境。如图5.2所示。

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image018.png&pos_id=cwCpnoMD

图5.1前100个特征(部分)

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image019.png&pos_id=yRt3WJtI

图5.2句子情绪标签

3.4.2修改代码参数对比结果

把训练集划分80%,测试集(20%)

(1)准确率对比

  1. 60%训练集/40%测试集:准确率为54.9%
  2. 80%训练集/20%测试集:准确率为57.9%

从准确率来看,增加训练集的比例可以提高模型的预测准确率。这表明更大的训练数据集能够帮助模型更好地学习特征和分类规则。

(2)特征重要性对比

在两次实验中,特征列表存在一定的重叠,但也有差异。例如,“整体”、“有些”、“编剧”、“不行”、“失望”等词汇在两个列表中都出现了,这表明这些特征对于模型来说是相对重要的。然而,也有一些特征只在其中一个列表中出现,这可能意味着随着训练集大小的变化,模型学习到的特征重要性有所差异。

(3)情绪面标签对比

  1. 流浪地球”:在两种划分比例下都被标记为正面情绪,但概率从72.27%略微下降到69.05%。
  2. 特效”:在两种划分比例下都被标记为负面情绪,但概率从52.51%略微上升到57.41%。
  3. 中国电影”:在两种划分比例下都被标记为正面情绪,但概率从63.07%上升到65.71%。
  4. 哈哈哈,我很喜欢今天很开心”:在两种划分比例下都被标记为正面情绪,概率从96.32%略微下降到96.24%。
  5. 刚开始吧还不错,但是后面越来越卡,差评”:尽管包含“差评”这样的负面词汇,但在两种划分比例下都被标记为正面情绪,概率从79.30%上升到85.34%。

情绪面标签的变化不大,这表明模型对于这些特定句子的情绪分类相对稳定。不过,概率的轻微变化可能反映了不同大小的训练集对模型预测信心的影响。如图5.3,图5.4所示。

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image020.png&pos_id=4yGApjiK

图5.3修改后前100个特征

20230724024159.png?origin_url=file%3A%2F%2F%2FC%3A%2FUsers%2FADMINI~1%2FAppData%2FLocal%2FTemp%2Fmsohtmlclip1%2F01%2Fclip_image021.png&pos_id=FwoLQDDg

图5.4情绪标签概率

4总结与展望

4.1论文研究总结

本文通过构建和实现基于朴素贝叶斯算法的文本情感分析模型,成功解决了豆瓣评论文本中情感倾向的自动分类问题。研究工作的意义在于为情感分析领域提供了一种结合传统机器学习与自然语言处理的有效方法,同时为理解和挖掘用户生成内容中的情感信息提供了新的视角。本文工作解决的问题:文本情感分类的准确性问题:通过朴素贝叶斯算法,本文提高了情感分析的准确性,尤其是在中文文本数据集上的应用。多语言和跨文化情感分析的挑战:虽然本文主要针对中文评论,但提出的方法论可为跨语言情感分析提供参考。情感分析的效率和可扩展性问题:本文探讨了大数据技术在情感分析中的应用,为处理大规模数据集提供了可能的解决方案。研究特点:选用了多项式朴素贝叶斯模型,适用于文本数据,并且能够处理词语的多重出现。包括了去除停用词、标点符号和分词处理,有效提升了模型的分类性能。使用词袋模型将文本转换为特征向量,简化了文本处理过程。

4.2研究展望和未来工作

未来研究可以考虑引入更先进的机器学习或深度学习模型,以进一步提高分类的准确性。跨文化情感分析:探索不同文化背景下的情感分析,增强模型的泛化能力和适应性。大规模数据集处理:研究如何更有效地处理和分析大规模数据集,提升情感分析的效率和可扩展性。

由于时间和其他条件的限制,本文对基于数据挖掘技术(朴素贝叶斯)的豆瓣用户评论平台的研究还存在一些不足,主要表现为两个方面。从研究方法来看,本研究主要关注《流浪地球》在豆瓣平台上的用户评论情况,但未涉及用户对其他类别电影的偏好,无法非常精准的反映出一个用户的习惯,未来的研究将探索用户对多种类型电影的偏好模式,以及这些偏好如何相互影响。从研究结果来看,本文用到的数据挖掘技术虽然在本文的测试数据集上表现良好,但是互联网环境下用户数据是复杂多变的,因此需要不断的对模型的参数和指标进行更新。

总的来说,将数据挖掘技术应用到电影平台是必然的趋势,也会给电影的发展带来更大的机遇,也对电影导演,电影演员,提升自己的竞争力具有一定的现实意义。

参考文献(References)

[1]  游棉州.  情感分析的算法与技术应用    [J].  电子技术,  2022,  51  (09):  190-191. 

[2]  刘策,李贞,颜明会.  面向大众点评网评论的文本情感分析研究    [J].  现代信息科技,  2021,  5  (19):  37-39.  DOI:10.19850/j.cnki.2096-4706.2021.19.009.

[3]    郭浩翔.    基于大数据的评论文本情感分析方法研究[D].    太原理工大学,    2021.     DOI:10.27352/d.cnki.gylgu.2021.000649.  

[4]  胡梦雅,樊重俊,朱玥.  基于机器学习的微博评论情感分析    [J].  信息与电脑(理论版),  2020,  32  (12):  71-73. 

[5]  张娜,柳运昌,王若男.  基于文本情感分析的社交媒体数据挖掘    [J].  河南城建学院学报,  2019,  28  (05):  74-79.  DOI:10.14140/j.cnki.hncjxb.2019.05.013.

[6]  严军超,赵志豪,赵瑞.  基于机器学习的社交媒体文本情感分析研究    [J].  信息与电脑(理论版),  2019,  31  (20):  44-47. 

[7]  王彬菁.  基于朴素贝叶斯分类算法的微博文本的情感分析研究    [J].  中国新通信,  2019,  21  (08):  114-115. 

[8]    崔伟健.    基于深度学习的文本情感分析[D].    吉林大学,    2018. 

 

 

 

 

  • 27
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值