基于大数据的微博情感正负面判研系统的设计与实现开题报告

395 篇文章 17 订阅
395 篇文章 18 订阅

学生姓名

学 号

论文(设计)题目

基于大数据的微博情感正负面判研系统的设计与实现

1.课题研究立项依据

(1)课题来源

近年来,随着互联网深入发展,移动终端技术逐渐成熟,社交网络已融入人们日常生活,越来越多的网民在社交网络上抒发个人情感、点评社会热点等,社交网络舆情分析有着至关重要的作用,受到学术界和产业界的普遍关注。微博作为一种新型社交网络,为用户提供了一种随时随地分享和获取信息的新型网络交流平台,微博用户数量逐年攀升,对微博数据进行情感分析,能够挖掘出微博用户对社会事件的观点想法,追踪事件的发展态势,进而更有利于舆情监控、谣言控制等工作的开展。

在社交网络中,用户人人都可以通过社交网络平台进行信息发布,且由于社交网络的匿名特性,大多数信息都可以真实反映用户当前真实情感;社交网络平台用户交互性使用较为简易,这吸引着用户参与热点事件讨论的意识较强,这种实时互动讨论更好的体现用户观点情感变化;正是由于社交网络发展,社交网络舆情涵盖的内容较为广泛,社交网络舆情形成较为迅速,尤其当有热点事件发生,用户可以通过各种渠道进行互动、汇聚,从而构成社交网络舆情声势。因此,社交网络舆情已成为影响社会发展的重要因素,社交网络舆情情感分析有助于维护社会和谐与稳定,《中国社会舆情应对能力评估分析报告》显示:作为新型社交网络平台,微博在网络舆情应对方面具有影响力。微博,作为新媒体呈现形式,很大程度上有助于对突发事件第一时间的信息公开,实时反映了突发事件的进展情况,有效的缓解社会恐慌,进一步提升突发事件舆论监督能力,为社会各类事件的舆论引导提供了一种切实有效的途径。

(2)目的及意义

通过以上内容,分析了微博平台的特点以及微博文本信息的特点,我们知道微博情感分析方法不但可行,而且其梳理出来的信息还十分有用。通过微博内容所含情感的提取分析,以大数据形式对热门事件的判断分析提供数据支持,而不是相对比比较被动地接受舆论的指导,企业也可以将其应用于调研从而了解用户的行为和情感信息,也可应用于对产品和服务的用户满意度和具体评价来有针对性地完善产品和服务以助企业发展,拓展企业的营销能力,同时也可进一步帮助用户做出选择。还可用于金融市场、社会学和心理学等不同领域的研究。因此,对于微博情感分析的研究这一问题是十分重要的,并且它也有着十分现实的意义。

2.文献综述

(1)国内外研究现状

情感分析,又称为倾向性分析,情感分类,意见发掘等。简而言之,就是对可操作和可分析的文本数据,尤其是带有许多主观情感色彩的信息数据进行相应的归纳,处理,分析和整理的过程,这些数据包含了大量的用户主动参与的,对各方面事物的评论和点评信息。目前,文本分析已经成了自然语言处理研究范围的热门问题之一,由于文本信息依旧是微博信息的主要部分,所以对微博信息的情感分析问题进行研究的基础就是情感分析。

对于微博的情感分析方面,国外主要是针对推特上的用户发布的即时消息来进行分析,江和德迈特、戴维弟等人将推特文本信息中的表情符号作为标注,设计了一个近似K近邻的文本分类器,由此实现了对微博文本的情感分类。班雅尼和谷尔提出了一种对推特中的文本信息进行情感分类的办法,即距离监督学习方法若给出了一个搜索词,消息会被自动分成正面或负面情感,抽取推特中含有表情图标的文才消息做为训练集,利用最大熵、支持向量机和朴素Bayes等算法进行试验,达到了80%以上的精度。

国内率先在内容的语言架构和文字上着手,从中分析语言表达情绪和感情的9个文字特征,运用通过直接提取和人工分析互补的方法进行尝试和初步探索。与之相对的为了尽可能准确的得出文字的情绪强度和感情倾向,以曹付元等人为主要成员的团队则以现代语言学经验为基础,通过对内容所包含情感权重不同、优先考虑的计算模型,定义短语中文字的感情倾向。这个方向很有指导意义,它较运用通过直接提取和人工分析互补的方法可以获得更深层次的文字情感倾向,曹的研究已经为此打下了比较好的基础。但这个办法仍然有巨大的提升空间,首先情绪和感情词典及其包含的内容很难突破通用语言处理水平和相应提取技术的壁垒,其次此法在分析过程中可能会忽略掉部分集中隐藏数据重要模式。而使用机器学习进行文本情感分析这一方式在发展过程中一直较占优势。比较常用和常见的机器学习模型有朴素Bayes,最大熵,支持向量机等多种不同的方法,庞等人曾利用机器学习的办法对观众们的影评进行了电影影评情感分析,而且使用了支持向量机,最大熵和朴素Bayes三种方法分别尝试,试验结果表明使用支持向量机是效果最好的,分类精确度达到了近80%。而之后的莫尔斯采用机器学习的方法分别对英语、荷兰语和法语进行了情感分析实验,试验结果表明对这三种语言进行的情感分类的正确率分别达到了84%、75%和62%。由此可见,利用机器学习方法对文本情感进行分析准确性相对更高,但是也有一些不可克服的缺点,例如训练时间相对较长等。

虽然中文微博在这两年的发展十分迅速,用户也逐日增多,但是对于中文微博的情感分析方面的工作现在还是处于一个初步发展的阶段。这是因为在国外对于推特等的文本情感分析研究如若具体应用到中文微博方面,还有着一定的限制性。比如140个汉字比140个字母包含的信息不仅要多很多,也要丰富很多,并且,中英文语法和使用规则也有着很大的差异,比起中文,英文的表述更加直接了当一些,而中文则相对比较内敛,同时也更强调上下文的关系和相互之间的衔接。

查阅文献发现,目前对中文微博的情感分析比起英文微博情感分析来还是比较少,谢丽星等人分析了对基于表情符号和情感词典的规则以及基于支持向量机的分类方法这三种方法的效果。刘智明等人则通过提取微博文本中的影评信息,对影评进行分析,并且对比了朴素Bayes、支持向量机和n元语言模型这三种方法的试验效果。由此分析,总体来看,对中文微博的情感分析工作还存在着很大的挑战,结合现在已经得到的研究成果,如何将之有效地结合在中文微博的情感分析工作上,是一个非常具有挑战性和难度,很有前景也很有应用价值的探索工作。

(2)研究方向

根据所选课题,对大量文献、刊物进行阅读和研究,主要包括数据分析平台的构建研究、数据分析平台的设计与实现和技术可行性分析等多个方面进行梳理和综述。

采用理论分析并结合案例分析,针对数据分析平台的具体状况、趋势分析、行业类比的相关研究进行研究。

(3)研究进展

准备阶段:确定研究课题,撰写开题报告及任务书。总结国内外相关研究论文,撰写文献综述。初步拟定技术路线。

实施阶段:进行大量文献、刊物的阅读和研究。对数据分析平台的发展现状与趋势有较为全面的了解。针对数据分析平台的具体状况、趋势分析、行业类比的相关研究进行归纳梳理。确定技术路线并设计,使用Python语言,采用Hadoop和Storm组件。以PyCharm和Visual Studio Code作为工具软件,在PyCharm的集成环境下调试数据分析模型。通过对设计的深入研究撰写论文。

结题阶段:整理各种相关文件材料。指导老师修改意见。整理论文材料,答辩准备。

3.课题研究的基本内容及预期目标或成果

(1)基本内容

主要模块为微博情感分析模块以及前端可视化展示,微博情感分析模块主要负责根据用户的请求获得相关关键词的微博数据,在功能上必须保证微博数据的稳定抓取,并且在得到稳定的数据后,对微博信息进行情感分类,具体来讲系统的功能主要有基于微博API接口的数据获取,基于网页爬虫的数据获取,构建数据流,微博分词和标注数据提取,情感分析模型训练和评估,微博情感分类。前端可视化展示部分作为整个项目与用户的接口,承担着接受用户请求,显示服务器返回信息,可视化展示数据信息的任务,从功能上讲具体包括时间轴展示、结果视图、实时视图、情感视图、关键词视图、登录、分享等几个功能模块。

论文分为六个章节,各章节的内容安排如下:

第一章阐述了微博情感分析研究工作的背景,分析了现阶段国内外微博情感分析的发展状况,介绍了论文的主要工作内容和组织结构。

第二章介绍本论文涉及到的关键技术。

第三章对系统业务进行需求分析,对系统进行需求建模,包括总体业务陈述及系统功能分析,介绍系统的非功能需求,为系统的设计和实现打下基础。

第四章主要介绍了系统的设计与实现,首先对系统架构进行设计,主要是对整个子系统的系统结构和功能的分析和架构,为后期的详细设计做准备。之后着重以微博情感分析子模块的设计与实现进行了叙述。

第五章对系统的具体测试情况进行了描述,并结合测试结果对系统进行分析。

第六章对整个项目进行了总结,包括论文工作总结部分和后续工作展望部分。

(2)预期成果

设计并完成符合任务书要求及系统需求的软件系统;完成符合学校规范的本科毕业论文。

4.课题的研究方案

(1)研究方法

论文主要使用调查法、文献研究法、经验法等方法进行研究,具体如下:

调查法:通过对系统的用户进行询问、调查,完成数据的收集,根据用户反馈的需求进行系统的功能设计。

文献研究法:通过查阅相关文献资料,获取到国内外关于情感正负面判研数据分析平台设计的研究现状,据此整理本文研究的基础,在此基础上进行系统的需求分析。

经验法:在进行系统设计时,经常会遇到代码错误等问题,当问题解决了以后要及时总结经验,防止下次再犯同样的错误。

(2)技术路线

使用Python语言,采用Hadoop和Storm组件。以PyCharm和Visual Studio Code作为工具软件,在PyCharm的集成环境下调试数据分析模型。

(3)试验方案

系统可维护性:由于系统所管理的信息比较多,数据库中的数据需要定期地进行改善,而系 统中可以利用的空间和性能也会随之下降,所以为了让系统可以更好地运行,平台应该对系统中 的一些数据和一些简单的功能进行独立维护及调整。

系统开放性:使系统可以在开放的硬件结构体系中运行,并且能够和其他系统顺利进行连接。

5.研究进度安排

2022年10月31日-2022年11月6日   毕业设计选题

2022年11月7日-2022年12月11日  文献综述及开题

2022年12月12日-2023年4月30日  毕业设计和毕业设计说明书撰写

2022年12月21日         初期检查

2023年3月15日          中期检查

2023年4月12日          终期检查

2023年5月1日-6月12日  查重、评阅、答辩、成绩评定、设计归档

6.主要参考文献

[1]李瑾.大数据分析在电商营销发展中的应用研究[J].商场现代化,2022(20):25-27.

[2]高严,于大海,江晨,刘宇航.大数据技术的特点与应用分析[J].电子技术,2022,51(10):142-144.

[3]张黎平,段淑萍,俞占仓.基于Hadoop的大数据处理平台设计与实现[J].电子测试,2022,36(20):74-75+83.

[4]蔡春花,黄思远,高继梅.基于Hadoop的学习行为数据云存储平台的设计与实现[J].软件工程,2022,25(10):50-53+49.

[5]张彦. 一种大数据处理应用框架系统设计与实现[D].中国科学技术大学,2019.

[6]周雯,史雪菲,吴毅坚,赵文耘.数据需求驱动的Storm应用辅助开发框架[J].计算机科学,2018,45(09):81-88.

[7]赵娟,程国钟.基于Hadoop、Storm、Samza、Spark及Flink大数据处理框架的比较研究[J].信息系统工程,2017(06):117+119.

[8]赵菲,林穗,高西刚.面向大数据的Storm框架研究与应用[J].微型机与应用,2016,35(06):12-14.

[9]符春.基于大数据分析技术的智慧平台设计[J].软件,2022,43(09):14-16.

[10]韦树成,廖剑斌.大数据分析管理系统在实验室中的应用和实践[J].华东科技,2022(09):83-85.

[11]李冉,石伟华,许恋梅,郭泽华.大数据时代下的数据分析公司发展前景研究[J].产业与科技论坛,2017,16(11):60-61.

[12]姚子扬.基于大数据的企业用户数据分析平台的设计[J].电子技术与软件工程,2022(19):205-209.

[13]Dong, Chang qing,Chen, Chen,Ren, Nver,Cai, Jian jun. Real-Time Distribution Algorithm for Fully Comparison Data Based on Storm[J]. Mobile Networks and Applications,2021(prepublish).

[14]Nemouchi Ismahene Warda,Boudouda Souheila,Zarour Eddine Nacer. A Dynamic Scaling Approach in Hadoop YARN[J]. International Journal of Organizational and Collective Intelligence (IJOCI),2022,12(2).

[15]Sindhu Daniel. Hadoop Big Data Infrastructure Framework[J]. Journal of Research in Science and Engineering,2021,3(8).

指导教师意见(对本课题的深度、广度、工作量、研究方案及进度安排的意见)

指导教师签字:                          

教研室审查意见(是否同意指导教师意见)

教研室主任签字:                         

### 回答1: 基于大数据的舆情负面判研系统设计实现,需要考虑以下几个方面: 1. 数据采集:需要从各大社交媒体平台、新闻网站等获取大量的文本数据,并对其进行清洗和预处理,以便后续的分析和挖掘。 2. 特征提取:需要对文本数据进行特征提取,包括词频、TF-IDF、情感词汇等,以便后续的情感分析负面判别。 3. 情感分析:需要使用自然语言处理技术对文本数据进行情感分析,判断其情感倾向,包括积极、消极、中性等。 4. 负面判别:需要根据情感分析的结果,对文本数据进行负面判别,判断其对应的舆情是面还是负面。 5. 可视化展示:需要将分析结果进行可视化展示,以便用户更直观地了解舆情的走向和变化。 综上所述,基于大数据的舆情负面判研系统设计实现需要综合运用数据采集、特征提取、情感分析负面判别和可视化展示等技术手段,以实现对舆情的全面分析和监测。 ### 回答2: 随着互联网的普及和社交媒体的日益流行,人们在日常生活中越来越依赖于网络获取信息和交流。而舆情营销已成为企业提升品牌形象和推动产品销售的重要手段。然而,面对海量的网络信息,如何准确地分辨出其中的面和负面信息,成为了摆在舆情分析者面前的难题。为了解决这一问题,基于大数据的舆情负面判研系统应运而生。 基于大数据的舆情负面判研系统设计实现包括以下方面: 一、数据采集:需要借助网络爬虫技术实现对网络上大数据的采集。通常采用分布式爬虫和多线程技术,收集各种网络信息,如社交网络、新闻媒体、博客等等数据,将其整理并存入数据库。 二、情感分析:基于大数据的舆情负面判研系统采用情感分析技术对采集到的各类信息进行情感判定。情感分析是一种文本挖掘技术,可以自动对文本进行情感分类,判断文本是面、负面或中性。情感分析通常采用机器学习算法,如朴素贝叶斯、支持向量机等。 三、数据处理:对采集到的信息和情感分析结果进行数据处理和分析。这一步主要包括特征选取、数据预处理、分类训练等。可以通过数据可视化工具进行数据展示和分析,向用户直观展示分析结果。 四、系统应用:基于大数据的舆情负面判研系统可以将分析结果应用于企业营销和舆情监测中。对于企业来说,可以根据分析结果调整营销策略、改进产品服务等,提升品牌形象和市场占有率。对于舆情监测部门来说,可以通过监测网络舆情来发现和解决危机,提高企业的风险控制能力。 总之,基于大数据的舆情负面判研系统是一种依靠人工智能技术对大数据进行分析和处理的工具,其实现离不开数据采集、情感分析、数据处理和系统应用等多方面的技术支持。它可以帮助企业和社会对网络信息进行准确分析和判定,为企业和社会提供更加精确和有用的营销和决策支持。 ### 回答3: 随着互联网的普及和社交媒体的興起,舆情监测和分析已经成为企业、政府和公共机构必备的工具。利用大数据技术和人工智能算法,可以快速、准确地判别舆情的负面,帮助用户快速反应市场和社会变化,做好灾难预警和危机管理。 设计一款有效的基于大数据的舆情负面判研系统需要经过以下步骤: 1. 数据采集: 系统需要从多个渠道收集并整理各种信息,包括新闻、博客、微博、论坛、社交媒体和视频等。或者用户可以在系统中添加指定的搜索关键字,收集特定类型的信息。 2. 数据清洗和处理: 采集的数据通常包括垃圾邮件、广告和无关信息,这些需要进行清洗和过滤。接下来,需要对数据进行分类,根据目的将其划分为不同的类别。 3. 特征提取: 应用名为“自然语言处理”的算法,将文本转换为一系列特征向量,包括情感、主题、关键词等。由于舆情分析需要涵盖更广泛的范围,还需要使用人工智能算法。 4. 模型训练: 由于文本情感无法直接判断,需要使用机器学习算法,将特征向量带入分类器并通过大量数据进行训练。通过该过程,可以让模型自行学习并实现更精准的判断。 5. 系统实现和集成: 根据上述步骤,系统需要进行开发和集成。可以使用Python、Java、C++等语言进行开发,完成对数据的收集、清洗、处理和分析等各种任务。同时,系统应用最新的数据库技术,以保证高效率和易维护性。 在实现过程中,需要对数据安全和隐私做好保护工作,同时需注意商业竞争、政治敏感和社会文化等问题。此外,在系统使用的过程中,也要不断优化算法和模型,以提高系统的判别准确率和稳定性。 总之,基于大数据的舆情负面判研系统是一项非常重要的研究工作,其能够有效地帮助用户快速获取关键信息,提高决策的准确性和效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值