一 半自定义方法
这里我们以美食杰为例,爬取它的图片,作为演示,这里只爬取一页。美食杰网址
1 首先我们在命令行进入到我们要创建的目录,输入 scrapy startproject meishi, 接着根据提示cd meishi, 再cd meishi,
, 下来写 scrapy genspider mei meishij.net ,生成如图所示文件。
(关于以上命令的讲解不在这次写的范围内)
2 点进如图所示的mei.py 文件,这里需要注意,要将start_urls[] 改为我们要爬取的Url 地址,然后根据xpath爬取图片
(这里放图片而不放源码得原因是,代码得自己写,不要复制)
3 进入到items 文件,她来处理刚刚得到的文件
4 进入到mei.py 文件,引入items这个文件的函数,并进行输出,因为src是图片,所以要用[]括起来
5 在settings.py 里进行设置,大致在67行前后的位置,自己定义下载。
最后两句代码,IMAGES_STORE = ’ ’ 里面写图片保存的路径
IMAGES_URLS_FIELD=’ ’ 里面写接收图片的变量
6 在命令行输入 scrapy crawl mei 点击确认,看到如图所示,表示成功