request,re, BeautifulSoup

tag 的三种遍历:

match对象

两种正则使用方法:

1. match对象的方法

  • .group(0):获得匹配后的字符串
  • .start():匹配字符串在原始字符串的开始位置
  • .end():匹配字符串在原始字符串的结束位置
  • .span():返回(.start(), .end())

2. match对象的属性

  • .string:待匹配的文本
  • .re:匹配时使用的pattern对象(正则表达式)
  • .pos:正则表达式搜索文本的开始位置
  • .endpos:正则表达式搜索文本结束位置

3. scrapy常用命令

  • startproject:创建一个新工程
  • genspider:创建一个爬虫
  • crawl:运行一个爬虫
  • settings:获得爬虫位置信息
  • list:列出工程中所有爬虫
  • shell:启动URL调试命令

4. scrapy的request类

  • .url:request对应的请求URL地址
  • .method:对应的请求方法, ‘get’,’post’等
  • .headers:字典类型风格的请求头
  • .body:请求内容主体,字符串类型
  • .meta:用户添加的扩展信息,在scrapy内部模块间传递信息使用
  • .copy():复制请求

5. scrapy的response类

  • .url:response对应的URL地址
  • .status:http状态码,默认200
  • .headers:response对应的头部信息
  • .body:response对应的内容信息,字符串类型
  • .flags:一组标记
  • .request:产生response类型对应的request对象
  • .copy():复制该相应
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值