之前我有和大家介绍过scrapy的安装方法,今天我们从建立项目到scrapy 爬虫,爬取极品笑话大全,从头到尾的来一遍。
一,Scrapy框架的安装:
1.首先是简单的pip安装,pip install scrapy 即可安装,
2.如果是在windous 下下定记得安装 pypiwin32,要不打开会报错,
3.安装pypiwin32,pip install pypiwin32,
二 ,创建项目和爬虫:
1,创建项目:scrapy startproject jipinspider ,
回车之后得到scrapy 项目 文件目录
生成了jipin_spider 文件夹,还有scrapy.cfg日志目录,这样一个scrapy 项目建立完成,是不是很简单,也很嗨皮。
2,创建scrapy 爬虫,上面项目jipin_spider 创建成功了之后, 我们就要在项目文件里创建一个极品笑话大全的爬虫,所以cd 到jipin_spider 目录下,
用命令scrapy genspider [爬虫名字] [爬取的域名] :比如我们今天要爬取的
scrapy genspider jp_spider[域名],注意爬虫名字不能和项目名字一致。
显示这样的就是成功创建了scrapy 爬虫,打开文件夹
1,我们主要关注的是spiders文件夹,存储爬虫代码文件夹,
2,itms.py文件,项目目标配置文件,
3,middlewares.py 中间健编写,就是一些反扒措施,比如浏览器模拟,ip代理反扒这些,都在中间件里编写,
4,pipelines.py,这个是项目的管道文件,我们在实操中在作解释,
5,settings.py,项目的设置
这样我们的一个极品笑话大全的scrapy 爬虫项目创建到爬虫创建就这们完成了,
其实这个也不是那么的难,我们从简单开始,接下来就是对里面的文件进行一些配置,