爬虫_018_scrapy

scarpy是一个为了爬取网站数据,提取结构性数而编写的应用框架【可应用在数据挖掘,信息处理或存储历史数据等一系列程序中】

在使用scrapy时不需要导入xpath,直接使用response.xpath即可

如果访问的url是以html结尾,结尾不能加  /

结构性数据:网页源码中,具有类似的相似的结构形的数据

基本使用

        1.创建爬虫项目        scrapy startproject 项目名称【终端运行,在根目录中(同级)要有scrapy.exe】,项目名称不可以数字开头,也不允许有汉字

        2.创建爬虫文件,一定要在spiders文件夹中创建【cd 项目名称\项目名称\spiders】

转到spiders后【在终端输入 scrapy genspider 爬虫文件名字 要爬取的网页的url】,注意网页的url不需要添加http://,创建文件系统会自动添加。

        3.在创建好的文件中,name是爬虫的名字,用于运行爬虫的时候使用的值;allowed_domains是允许访问的域名【不能访问除了这个以外的域名】;start_url是第一次要访问的域名;parse方法中的response相当于【response = urllib.request.urlopen和response = requests.get】

        4.运行爬虫代码        scrapy crawl 爬虫的名字【name】 

运行之后会遇到‘君子协议’【在域名后有robots.txt】 ---  注释第二级的项目名称下的settings中的ROBOTSTXT_OBEY 

scrap

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值