如何使用scrapy抓取豆瓣网信息?(1)（抓取豆瓣网信息实例）

最新推荐文章于 2022-04-26 15:55:47 发布

攻城狮小关

最新推荐文章于 2022-04-26 15:55:47 发布

阅读量540

点赞数

分类专栏： pycharm scrapy 文章标签：后端爬虫 python

本文链接：https://blog.csdn.net/Mumaren6/article/details/108258593

版权

scrapy 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

pycharm

5 篇文章 0 订阅

订阅专栏

前提是scrapy 安装成功，需要用到python3.6和pycharm（具体操作见文章如何解决scrapy不是内部或外部命令）

豆瓣网 https://movie.douban.com/top250
爬虫抓取四步走：新建项目-->明确目标-->制作爬虫-->储存内容

1.新建项目

（1）以抓取豆瓣网信息为例，在cmd执行模式下输入scrapy startproject douban回车

出现此提示即为成功新建

（2）输入cd douban打开到豆瓣文件目录下

（3）此时输入scrapy genspider douban_spider movie.douban.com 回车

此时我们得到了一个douban_spider.py文件

2.明确对象

我们需要抓取的是豆瓣网https://movie.douban.com/top250（可以提前打开）

（1）此时打开pycharm,左侧找到douban文件，单击点开，找到spiders点开。

我们要用到三个文件item.py ,douban_spider.py ,settings.py

(2)具体编写如下，#项为注释

item.py文件

douban_spider.py 文件

settings.py文件

（3）此处OBEY将True改为False,将DOWNLOAD_DELAY=改为0.5（下载速度）

（4）这时候可以在cmd执行中，cd douban,输入scrapy crawl douban_spider进行抓取

此处可能会有报错现象，下篇文章提供解决方案。

正常运行得到如下界面

（5）这是豆瓣网首页的html标签信息

下篇文章将抓取到的信息再细致化

希望能帮到大家，问你们要一个赞，你们会给吗，谢谢大家
版权声明：本文版权归作者（@攻城狮小关）和CSDN共有，欢迎转载，但未经作者同意必须保留此段声明，且在文章页面明显位置给出原文连接，否则保留追究法律责任的权利。
大家写文都不容易，请尊重劳动成果~
交流加Q：1909561302
博客园地址https://www.cnblogs.com/guanguan-com/

攻城狮小关

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
如何使用scrapy抓取豆瓣网信息?(1)（抓取豆瓣网信息实例）

前提是scrapy 安装成功，需要用到python3.6和pycharm（具体操作见文章如何解决scrapy不是内部或外部命令）豆瓣网 https://movie.douban.com/top250爬虫抓取四步走：新建项目-->明确目标-->制作爬虫-->储存内容1.新建项目（1）以抓取豆瓣网信息为例，在cmd执行模式下输入scrapy startproject douban回车出现此提示即为成功新建（2）输入cd douban打开到豆瓣文件目录下..
复制链接

扫一扫