scarpy是一个为了爬取网站数据,提取结构性数而编写的应用框架【可应用在数据挖掘,信息处理或存储历史数据等一系列程序中】
在使用scrapy时不需要导入xpath,直接使用response.xpath即可
如果访问的url是以html结尾,结尾不能加 /
结构性数据:网页源码中,具有类似的相似的结构形的数据
基本使用
1.创建爬虫项目 scrapy startproject 项目名称【终端运行,在根目录中(同级)要有scrapy.exe】,项目名称不可以数字开头,也不允许有汉字
2.创建爬虫文件,一定要在spiders文件夹中创建【cd 项目名称\项目名称\spiders】
转到spiders后【在终端输入 scrapy genspider 爬虫文件名字 要爬取的网页的url】,注意网页的url不需要添加http://,创建文件系统会自动添加。
3.在创建好的文件中,name是爬虫的名字,用于运行爬虫的时候使用的值;allowed_domains是允许访问的域名【不能访问除了这个以外的域名】;start_url是第一次要访问的域名;parse方法中的response相当于【response = urllib.request.urlopen和response = requests.get】
4.运行爬虫代码 scrapy crawl 爬虫的名字【name】
运行之后会遇到‘君子协议’【在域名后有robots.txt】 --- 注释第二级的项目名称下的settings中的ROBOTSTXT_OBEY
scrap