python数据可视化之美豆瓣_Python数据可视化：豆瓣电影TOP250

最新推荐文章于 2023-04-19 17:45:21 发布

weixin_39807691

最新推荐文章于 2023-04-19 17:45:21 发布

阅读量966

点赞数

文章标签： python数据可视化之美豆瓣

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39807691/article/details/113513550

版权

豆瓣电影TOP250，对于众多爬虫爱好者，应该并不陌生。

很多人都会以此作为第一个练手的小项目。

当然这也多亏了豆瓣的包容，没有加以太多的反爬措施，对新手比较友好。

本期通过Scrapy框架，对豆瓣电影TOP250信息进行爬取。

同时对获取的数据进行可视化分析，给大家带来一个不一样的TOP250。

/ 01 / Scrapy

之前了解了pyspider框架的使用，但是就它而言，只能应用于一些简单的爬取。

对于反爬程度高的网站，它就显得力不从心。

那么就轮到Scrapy上场了，目前Python中使用最广泛的爬虫框架。

当然目前我学习的都是简单爬虫，上述内容都是道听途说，并不是切身体会。

Scrapy的安装相对复杂，依赖的库较多。

不过通过度娘，最后我是成功安装了的。放在C盘，如今我的C盘要爆炸。

首先任意文件夹下命令行运行scrapy startproject doubanTop250，创建一个名为doubanTop250的文件夹。

然后在文件夹下的py文件中改写程序。

进入文件夹里，命令行运行scrapy genspider douban movie.douban.com/top250。

最后会生成一个douban.py文件，Scrapy用它来从网页里抓取内容，并解析抓取结果。

最终修改程序如下。

import scrapy

from scrapy import Spider

from doubanTop250.items import Doubantop250Item

class DoubanSpider(scrapy.Spider):

name = 'douban'

allowed_domains = ['douban.com']

start_urls = ['https://movie.douban.com/top250/']

最低0.47元/天解锁文章

weixin_39807691

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
python数据可视化之美豆瓣_Python数据可视化：豆瓣电影TOP250

豆瓣电影TOP250，对于众多爬虫爱好者，应该并不陌生。很多人都会以此作为第一个练手的小项目。当然这也多亏了豆瓣的包容，没有加以太多的反爬措施，对新手比较友好。本期通过Scrapy框架，对豆瓣电影TOP250信息进行爬取。同时对获取的数据进行可视化分析，给大家带来一个不一样的TOP250。/ 01 / Scrapy之前了解了pyspider框架的使用，但是就它而言，只能应用于一些简单的爬取。对于反...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。