学生姓名 | 学 号 | ||
论文(设计)题目 | 基于大数据的微博情感正负面判研系统的设计与实现 | ||
1.课题研究立项依据 (1)课题来源 近年来,随着互联网深入发展,移动终端技术逐渐成熟,社交网络已融入人们日常生活,越来越多的网民在社交网络上抒发个人情感、点评社会热点等,社交网络舆情分析有着至关重要的作用,受到学术界和产业界的普遍关注。微博作为一种新型社交网络,为用户提供了一种随时随地分享和获取信息的新型网络交流平台,微博用户数量逐年攀升,对微博数据进行情感分析,能够挖掘出微博用户对社会事件的观点想法,追踪事件的发展态势,进而更有利于舆情监控、谣言控制等工作的开展。 在社交网络中,用户人人都可以通过社交网络平台进行信息发布,且由于社交网络的匿名特性,大多数信息都可以真实反映用户当前真实情感;社交网络平台用户交互性使用较为简易,这吸引着用户参与热点事件讨论的意识较强,这种实时互动讨论更好的体现用户观点情感变化;正是由于社交网络发展,社交网络舆情涵盖的内容较为广泛,社交网络舆情形成较为迅速,尤其当有热点事件发生,用户可以通过各种渠道进行互动、汇聚,从而构成社交网络舆情声势。因此,社交网络舆情已成为影响社会发展的重要因素,社交网络舆情情感分析有助于维护社会和谐与稳定,《中国社会舆情应对能力评估分析报告》显示:作为新型社交网络平台,微博在网络舆情应对方面具有影响力。微博,作为新媒体呈现形式,很大程度上有助于对突发事件第一时间的信息公开,实时反映了突发事件的进展情况,有效的缓解社会恐慌,进一步提升突发事件舆论监督能力,为社会各类事件的舆论引导提供了一种切实有效的途径。 (2)目的及意义 通过以上内容,分析了微博平台的特点以及微博文本信息的特点,我们知道微博情感分析方法不但可行,而且其梳理出来的信息还十分有用。通过微博内容所含情感的提取分析,以大数据形式对热门事件的判断分析提供数据支持,而不是相对比比较被动地接受舆论的指导,企业也可以将其应用于调研从而了解用户的行为和情感信息,也可应用于对产品和服务的用户满意度和具体评价来有针对性地完善产品和服务以助企业发展,拓展企业的营销能力,同时也可进一步帮助用户做出选择。还可用于金融市场、社会学和心理学等不同领域的研究。因此,对于微博情感分析的研究这一问题是十分重要的,并且它也有着十分现实的意义。 | |||
2.文献综述 (1)国内外研究现状 情感分析,又称为倾向性分析,情感分类,意见发掘等。简而言之,就是对可操作和可分析的文本数据,尤其是带有许多主观情感色彩的信息数据进行相应的归纳,处理,分析和整理的过程,这些数据包含了大量的用户主动参与的,对各方面事物的评论和点评信息。目前,文本分析已经成了自然语言处理研究范围的热门问题之一,由于文本信息依旧是微博信息的主要部分,所以对微博信息的情感分析问题进行研究的基础就是情感分析。 对于微博的情感分析方面,国外主要是针对推特上的用户发布的即时消息来进行分析,江和德迈特、戴维弟等人将推特文本信息中的表情符号作为标注,设计了一个近似K近邻的文本分类器,由此实现了对微博文本的情感分类。班雅尼和谷尔提出了一种对推特中的文本信息进行情感分类的办法,即距离监督学习方法若给出了一个搜索词,消息会被自动分成正面或负面情感,抽取推特中含有表情图标的文才消息做为训练集,利用最大熵、支持向量机和朴素Bayes等算法进行试验,达到了80%以上的精度。 国内率先在内容的语言架构和文字上着手,从中分析语言表达情绪和感情的9个文字特征,运用通过直接提取和人工分析互补的方法进行尝试和初步探索。与之相对的为了尽可能准确的得出文字的情绪强度和感情倾向,以曹付元等人为主要成员的团队则以现代语言学经验为基础,通过对内容所包含情感权重不同、优先考虑的计算模型,定义短语中文字的感情倾向。这个方向很有指导意义,它较运用通过直接提取和人工分析互补的方法可以获得更深层次的文字情感倾向,曹的研究已经为此打下了比较好的基础。但这个办法仍然有巨大的提升空间,首先情绪和感情词典及其包含的内容很难突破通用语言处理水平和相应提取技术的壁垒,其次此法在分析过程中可能会忽略掉部分集中隐藏数据重要模式。而使用机器学习进行文本情感分析这一方式在发展过程中一直较占优势。比较常用和常见的机器学习模型有朴素Bayes,最大熵,支持向量机等多种不同的方法,庞等人曾利用机器学习的办法对观众们的影评进行了电影影评情感分析,而且使用了支持向量机,最大熵和朴素Bayes三种方法分别尝试,试验结果表明使用支持向量机是效果最好的,分类精确度达到了近80%。而之后的莫尔斯采用机器学习的方法分别对英语、荷兰语和法语进行了情感分析实验,试验结果表明对这三种语言进行的情感分类的正确率分别达到了84%、75%和62%。由此可见,利用机器学习方法对文本情感进行分析准确性相对更高,但是也有一些不可克服的缺点,例如训练时间相对较长等。 虽然中文微博在这两年的发展十分迅速,用户也逐日增多,但是对于中文微博的情感分析方面的工作现在还是处于一个初步发展的阶段。这是因为在国外对于推特等的文本情感分析研究如若具体应用到中文微博方面,还有着一定的限制性。比如140个汉字比140个字母包含的信息不仅要多很多,也要丰富很多,并且,中英文语法和使用规则也有着很大的差异,比起中文,英文的表述更加直接了当一些,而中文则相对比较内敛,同时也更强调上下文的关系和相互之间的衔接。 查阅文献发现,目前对中文微博的情感分析比起英文微博情感分析来还是比较少,谢丽星等人分析了对基于表情符号和情感词典的规则以及基于支持向量机的分类方法这三种方法的效果。刘智明等人则通过提取微博文本中的影评信息,对影评进行分析,并且对比了朴素Bayes、支持向量机和n元语言模型这三种方法的试验效果。由此分析,总体来看,对中文微博的情感分析工作还存在着很大的挑战,结合现在已经得到的研究成果,如何将之有效地结合在中文微博的情感分析工作上,是一个非常具有挑战性和难度,很有前景也很有应用价值的探索工作。 (2)研究方向 根据所选课题,对大量文献、刊物进行阅读和研究,主要包括数据分析平台的构建研究、数据分析平台的设计与实现和技术可行性分析等多个方面进行梳理和综述。 采用理论分析并结合案例分析,针对数据分析平台的具体状况、趋势分析、行业类比的相关研究进行研究。 (3)研究进展 准备阶段:确定研究课题,撰写开题报告及任务书。总结国内外相关研究论文,撰写文献综述。初步拟定技术路线。 实施阶段:进行大量文献、刊物的阅读和研究。对数据分析平台的发展现状与趋势有较为全面的了解。针对数据分析平台的具体状况、趋势分析、行业类比的相关研究进行归纳梳理。确定技术路线并设计,使用Python语言,采用Hadoop和Storm组件。以PyCharm和Visual Studio Code作为工具软件,在PyCharm的集成环境下调试数据分析模型。通过对设计的深入研究撰写论文。 结题阶段:整理各种相关文件材料。指导老师修改意见。整理论文材料,答辩准备。 | |||
3.课题研究的基本内容及预期目标或成果 (1)基本内容 主要模块为微博情感分析模块以及前端可视化展示,微博情感分析模块主要负责根据用户的请求获得相关关键词的微博数据,在功能上必须保证微博数据的稳定抓取,并且在得到稳定的数据后,对微博信息进行情感分类,具体来讲系统的功能主要有基于微博API接口的数据获取,基于网页爬虫的数据获取,构建数据流,微博分词和标注数据提取,情感分析模型训练和评估,微博情感分类。前端可视化展示部分作为整个项目与用户的接口,承担着接受用户请求,显示服务器返回信息,可视化展示数据信息的任务,从功能上讲具体包括时间轴展示、结果视图、实时视图、情感视图、关键词视图、登录、分享等几个功能模块。 论文分为六个章节,各章节的内容安排如下: 第一章阐述了微博情感分析研究工作的背景,分析了现阶段国内外微博情感分析的发展状况,介绍了论文的主要工作内容和组织结构。 第二章介绍本论文涉及到的关键技术。 第三章对系统业务进行需求分析,对系统进行需求建模,包括总体业务陈述及系统功能分析,介绍系统的非功能需求,为系统的设计和实现打下基础。 第四章主要介绍了系统的设计与实现,首先对系统架构进行设计,主要是对整个子系统的系统结构和功能的分析和架构,为后期的详细设计做准备。之后着重以微博情感分析子模块的设计与实现进行了叙述。 第五章对系统的具体测试情况进行了描述,并结合测试结果对系统进行分析。 第六章对整个项目进行了总结,包括论文工作总结部分和后续工作展望部分。 (2)预期成果 设计并完成符合任务书要求及系统需求的软件系统;完成符合学校规范的本科毕业论文。 | |||
4.课题的研究方案 (1)研究方法 论文主要使用调查法、文献研究法、经验法等方法进行研究,具体如下: 调查法:通过对系统的用户进行询问、调查,完成数据的收集,根据用户反馈的需求进行系统的功能设计。 文献研究法:通过查阅相关文献资料,获取到国内外关于情感正负面判研数据分析平台设计的研究现状,据此整理本文研究的基础,在此基础上进行系统的需求分析。 经验法:在进行系统设计时,经常会遇到代码错误等问题,当问题解决了以后要及时总结经验,防止下次再犯同样的错误。 (2)技术路线 使用Python语言,采用Hadoop和Storm组件。以PyCharm和Visual Studio Code作为工具软件,在PyCharm的集成环境下调试数据分析模型。 (3)试验方案 系统可维护性:由于系统所管理的信息比较多,数据库中的数据需要定期地进行改善,而系 统中可以利用的空间和性能也会随之下降,所以为了让系统可以更好地运行,平台应该对系统中 的一些数据和一些简单的功能进行独立维护及调整。 系统开放性:使系统可以在开放的硬件结构体系中运行,并且能够和其他系统顺利进行连接。 | |||
5.研究进度安排 2022年10月31日-2022年11月6日 毕业设计选题 2022年11月7日-2022年12月11日 文献综述及开题 2022年12月12日-2023年4月30日 毕业设计和毕业设计说明书撰写 2022年12月21日 初期检查 2023年3月15日 中期检查 2023年4月12日 终期检查 2023年5月1日-6月12日 查重、评阅、答辩、成绩评定、设计归档 | |||
6.主要参考文献 [1]李瑾.大数据分析在电商营销发展中的应用研究[J].商场现代化,2022(20):25-27. [2]高严,于大海,江晨,刘宇航.大数据技术的特点与应用分析[J].电子技术,2022,51(10):142-144. [3]张黎平,段淑萍,俞占仓.基于Hadoop的大数据处理平台设计与实现[J].电子测试,2022,36(20):74-75+83. [4]蔡春花,黄思远,高继梅.基于Hadoop的学习行为数据云存储平台的设计与实现[J].软件工程,2022,25(10):50-53+49. [5]张彦. 一种大数据处理应用框架系统设计与实现[D].中国科学技术大学,2019. [6]周雯,史雪菲,吴毅坚,赵文耘.数据需求驱动的Storm应用辅助开发框架[J].计算机科学,2018,45(09):81-88. [7]赵娟,程国钟.基于Hadoop、Storm、Samza、Spark及Flink大数据处理框架的比较研究[J].信息系统工程,2017(06):117+119. [8]赵菲,林穗,高西刚.面向大数据的Storm框架研究与应用[J].微型机与应用,2016,35(06):12-14. [9]符春.基于大数据分析技术的智慧平台设计[J].软件,2022,43(09):14-16. [10]韦树成,廖剑斌.大数据分析管理系统在实验室中的应用和实践[J].华东科技,2022(09):83-85. [11]李冉,石伟华,许恋梅,郭泽华.大数据时代下的数据分析公司发展前景研究[J].产业与科技论坛,2017,16(11):60-61. [12]姚子扬.基于大数据的企业用户数据分析平台的设计[J].电子技术与软件工程,2022(19):205-209. [13]Dong, Chang qing,Chen, Chen,Ren, Nver,Cai, Jian jun. Real-Time Distribution Algorithm for Fully Comparison Data Based on Storm[J]. Mobile Networks and Applications,2021(prepublish). [14]Nemouchi Ismahene Warda,Boudouda Souheila,Zarour Eddine Nacer. A Dynamic Scaling Approach in Hadoop YARN[J]. International Journal of Organizational and Collective Intelligence (IJOCI),2022,12(2). [15]Sindhu Daniel. Hadoop Big Data Infrastructure Framework[J]. Journal of Research in Science and Engineering,2021,3(8). | |||
指导教师意见(对本课题的深度、广度、工作量、研究方案及进度安排的意见) 指导教师签字: 年 月 日 | |||
教研室审查意见(是否同意指导教师意见) 教研室主任签字: 年 月 日 |
基于大数据的微博情感正负面判研系统的设计与实现开题报告
最新推荐文章于 2024-08-23 09:21:04 发布