tag 的三种遍历:
match对象
两种正则使用方法:
1. match对象的方法
- .group(0):获得匹配后的字符串
- .start():匹配字符串在原始字符串的开始位置
- .end():匹配字符串在原始字符串的结束位置
- .span():返回(.start(), .end())
2. match对象的属性
- .string:待匹配的文本
- .re:匹配时使用的pattern对象(正则表达式)
- .pos:正则表达式搜索文本的开始位置
- .endpos:正则表达式搜索文本结束位置
3. scrapy常用命令
- startproject:创建一个新工程
- genspider:创建一个爬虫
- crawl:运行一个爬虫
- settings:获得爬虫位置信息
- list:列出工程中所有爬虫
- shell:启动URL调试命令
4. scrapy的request类
- .url:request对应的请求URL地址
- .method:对应的请求方法, ‘get’,’post’等
- .headers:字典类型风格的请求头
- .body:请求内容主体,字符串类型
- .meta:用户添加的扩展信息,在scrapy内部模块间传递信息使用
- .copy():复制请求
5. scrapy的response类
- .url:response对应的URL地址
- .status:http状态码,默认200
- .headers:response对应的头部信息
- .body:response对应的内容信息,字符串类型
- .flags:一组标记
- .request:产生response类型对应的request对象
- .copy():复制该相应