如何使用scrapy抓取豆瓣网信息?(1)(抓取豆瓣网信息实例)

前提是scrapy 安装成功,需要用到python3.6和pycharm(具体操作见文章如何解决scrapy不是内部或外部命令)

豆瓣网 https://movie.douban.com/top250
爬虫抓取四步走:新建项目-->明确目标-->制作爬虫-->储存内容

1.新建项目

(1)以抓取豆瓣网信息为例,在cmd执行模式下输入scrapy startproject douban回车

 

 出现此提示即为成功新建

(2)输入cd douban打开到豆瓣文件目录下

 

 (3)此时输入scrapy genspider douban_spider movie.douban.com 回车

 

 此时我们得到了一个douban_spider.py文件

2.明确对象

我们需要抓取的是豆瓣网https://movie.douban.com/top250(可以提前打开)

(1)此时打开pycharm,左侧找到douban文件,单击点开,找到spiders点开。

 

 我们要用到三个文件item.py ,douban_spider.py  ,settings.py

(2)具体编写如下,#项为注释

item.py文件

 

douban_spider.py 文件

 

 settings.py文件

 

 (3)此处OBEY将True改为False,将DOWNLOAD_DELAY=改为0.5(下载速度)

(4)这时候可以在cmd执行中,cd douban,输入scrapy crawl douban_spider进行抓取

此处可能会有报错现象,下篇文章提供解决方案。

正常运行得到如下界面

 

 (5)这是豆瓣网首页的html标签信息

下篇文章将抓取到的信息再细致化

希望能帮到大家,问你们要一个赞,你们会给吗,谢谢大家
版权声明:本文版权归作者(@攻城狮小关)和CSDN共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
大家写文都不容易,请尊重劳动成果~ 
交流加Q:1909561302
博客园地址https://www.cnblogs.com/guanguan-com/

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

攻城狮小关

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值