当当网垃圾评论检测研究-计算机毕业设计源码+LW文档

一、选题的目的和意义: 
(一)    研究目的:
当当网目前是国内比较大的专业电子商务平台,拥有大量的商品信息和评论内容。使用爬虫技术,对当当网评论数据进行抓取,得到海量的信息,然后对数据进行处理和分析,最终将分析的垃圾评论数据可视化展现出来,可以服务大众。因此,本选题将垃圾评论信息的收集置于具体的当当网平台,从而进行研究商品品质情况和公民的评论偏向。
(二)研究意义:
大数据和信息技术的快速发展,给电子商务的发展带来了机遇。利用数据可视化的优势,紧跟现代科技发展的前沿,通过大数据与垃圾评论的关联,对垃圾属性的聚类分析建立分类模型进行了研究,并应用到电子商务、市场营销、社会学、心理学等多个方面。基于Python+Echarts的当当网垃圾评论的数据可视化分析系统,主动将现代信息技术融入商品信息数据、垃圾评论分析中,通过数据的检测研究,为电子商务营销服务。
二、本课题的研究现状:
在美国,数据收集和分析也是目前广受欢迎的行业,如通过实施和应用爬虫系统,收集商品相关信息,有效记录商品价格信息,从海量数据中挖掘最有效的评论信息,根据不同客户特性,对客户和市场细分,提供不同的产品和营销策略。在应用数据分析系统过程中,也在不断分析市场,分析认为在金融业竞争力已大大下降,客户更希望得到随时随地随身的服务。
在国内,诸多国内学者针对电子商务的商品销售数据做了大量的研究工作,包括商品价格、商品评论数据的挖掘、算法的改进以及国内电子商务的研究等多个方面。马雯雯等人针对社区博客短文本,提出一种通过 CURE 算法和 K-means 算法进行二次聚类的评论发现方法,实现对文本数据的聚类,得到最终的评论结果。詹勇在传统的 VSM 模型和文本聚类算法存在局限性的基础上,采用 LDA 主题模型作为文本表示模型,提出了混合模型交叉话题评论发现算法,对文本内容隐含话题评论信息进行提取,并实验验证了算法的有效性。孙胜平提出了一种基于向量空间模型的 Single-pass 算法和热度计算结合的聚类算法用于话题评论发现。首先利用改进的 Single-pass 算法进行文本聚类,然后引入话题评论向量来表示话题簇,计算微博特征向量与已有话题评论向量相似度进行计算,进行话题热度计算并通过层次聚类对话题簇进行合并操作,实现对话题评论的检测。
三、主要内容和预期目标:
主要内容:分析当当网垃圾评论检测研究的研究背景、意义和现状。然后在该系统需求分析的基础上提出整体设计思想,并进行总体设计和详细设计。本系统首先使用Python语言的爬虫技术对当当网数据进行爬取,清理数据,数据存储到MySQL中,然后对数据进行分析,通过系统读取到当当网的商品信息,垃圾评论数据等。最后对系统进行测试,并总结其特点和不足。
预期目标:设计一款,功能齐全,用户体验良好的当当网垃圾评论检测系统,先抓取当当网商品信息、评论信息,然后分析数据,并将垃圾评论进行可视化展示出来。
四、拟采用的研究方法和主要措施:
该当当网垃圾评论检测系统采用文献法进行研究,通过搜集当当网垃圾评论检测系统的相关资料,研究当前当当网垃圾评论检测系统的运行情况,并总结其优点以及存在的问题,从而整理分析系统的需求,并依据需求完成设计、开发、测试等工作。当当网垃圾评论检测系统开发平台为PyCharm,开发技术为Python,后台数据库采用MySQL。在设计过程中,及时向导师汇报设计进展,积极听取老师意见,调整思路,获得更好的信息。
五、主要参考文献:(不少于8个,其中,英文文献不少于1个)
[1]方巍.大数据背景下网络爬虫框架的应用研究[J].电脑编程技巧与维护,2021(12):93-96.
[2]赵文杰,古荣龙.基于Python的网络爬虫技术[J].河北农机,2020(08):65-66.
[3]刘哲,马乐荣.大规模电商平台商品信息采集系统的设计与实现[J].延安大学学报(自然科学版),2020,39(02):32-36+42.
[4]邢娅凯. 基于Scrapy框架爬虫和数据挖掘的当当网页信息分析[D].湘潭大学,2020.10.27426
[5]翟普.python网络爬虫爬取策略对比分析[J].电脑知识与技术,2020,16(01):29-30+34.
[6]周立岩.基于时空特性的社交网络突发话题查询预测可视化[D].北京邮电大学,2021.10.69.
[7]王晰巍,贾若男,韦雅楠,许可.社交网络舆情事件主题图谱构建及可视化研究[J].情报理论与实践,2020,43(03):17-23.DOI:10.
[8]. Newly renamed Tadano crawler to take to stage[J]. Gulf Construction,2022.

 

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值