前提是scrapy 安装成功,需要用到python3.6和pycharm(具体操作见文章如何解决scrapy不是内部或外部命令)
豆瓣网 https://movie.douban.com/top250
爬虫抓取四步走:新建项目-->明确目标-->制作爬虫-->储存内容
1.新建项目
(1)以抓取豆瓣网信息为例,在cmd执行模式下输入scrapy startproject douban回车
出现此提示即为成功新建
(2)输入cd douban打开到豆瓣文件目录下
(3)此时输入scrapy genspider douban_spider movie.douban.com 回车
此时我们得到了一个douban_spider.py文件
2.明确对象
我们需要抓取的是豆瓣网https://movie.douban.com/top250(可以提前打开)
(1)此时打开pycharm,左侧找到douban文件,单击点开,找到spiders点开。
我们要用到三个文件item.py ,douban_spider.py ,settings.py
(2)具体编写如下,#项为注释
item.py文件
douban_spider.py 文件
settings.py文件
(3)此处OBEY将True改为False,将DOWNLOAD_DELAY=改为0.5(下载速度)
(4)这时候可以在cmd执行中,cd douban,输入scrapy crawl douban_spider进行抓取
此处可能会有报错现象,下篇文章提供解决方案。
正常运行得到如下界面
(5)这是豆瓣网首页的html标签信息
下篇文章将抓取到的信息再细致化
希望能帮到大家,问你们要一个赞,你们会给吗,谢谢大家
版权声明:本文版权归作者(@攻城狮小关)和CSDN共有,欢迎转载,但未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。
大家写文都不容易,请尊重劳动成果~
交流加Q:1909561302
博客园地址https://www.cnblogs.com/guanguan-com/