python分布式爬虫开题报告范文_基于Python的豆瓣Top250排行榜影片数据爬取和分析开题报告...-CSDN博客

本文链接：https://blog.csdn.net/weixin_39616216/article/details/112052878

一、选题依据：(简述研究现状，说明该毕业设计的设计目的及意义)

研究现状

Python是一门很全面的语言，又随着大数据和人工智能的兴起，广受爬虫设计者们的青眯。设计者们运用Python语言的框架-Scrapy开发分布式爬虫，对网络或者特定网站的数据进行挖掘。

Scrapy是一个基于Twisted的异步处理框架，是纯Python实现的爬虫框架，其架构清晰、模块之间耦合程度低，可拓展性极强，可以灵活完成各种需求。使用Scrapy我们可以轻松实现一个爬虫，对豆瓣网进行采集数据，然后可以用Pandas对数据进行分析，为了更好地了解影片口碑，还可以用Matplotlib将影片评分数据做成柱形图等，也可以用wordcloud将影评词云化展示。

Scrapy用途广泛，可以用于数据挖掘、检测和自动化测试。Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供多种类型爬虫的基类，如BaseSpider、sitemap爬虫等。其最初是为了页面抓取(更确切来说,网络抓取)所设计的，也可以应用在获取API所返回的数据(例如Amazon Associates Web Services)或者通用的网络爬虫。

设计的目的：

随着经济社会的快速发展，电影作为精神文化产品，得到越来越多人的青睐，人们对电影的评价页也参差不齐，在海量的资源中如何尽快找到符合个人品味的电影，成为观众新的问题。基于Python的数据爬虫技术是目前使用最广泛的方法之一，它能够以最快捷的方式展示用户体验数据，帮助观众进行影片选择。豆瓣电影是著名的电影网站，通过豆瓣电影提供的开放接口大规模地获取电影相关数据。

设计的意义：

本毕业设计用Python的Scrapy框架编写爬虫程序抓取了Top250排行榜的影片榜单信息，爬取电影的短评、评分、评价数量等数据，并结合Python的多个库(Pandas、Numpy、Matplotlib)，使用Numpy系统存储和处理大型数据，中文Jieba分词工具进行爬取数据的分词文本处理，wordcloud库处理数据关键词，最终通过词云图、网页动态图展示观众情感倾向和影片评分统计等信息。网络信息资源充盈的今天，网络信息的获取工作十分重要，该毕业设计的意义在于为用户观影提供决策支持。