Scrapy框架 & XPath

XPath

语句作用
./当前节点
…/当前节点的父节点
/*返回层级所有元素
//+元素获得任意位置的该元素,当多个“//”一起使用的时候,有前后分层关系
/@+属性获取元素中的属性
/*[@+属性]任意位置(元素)获取属性
/元素[属性=值]返回特定属性
/元素[contains(属性,模糊值)]模糊匹配,包含
/元素[not(contains(属性,模糊值))]模糊匹配,不包含
/元素[starts-with(属性,模糊值)]模糊匹配,以……开头
/text()只返回文本
//img/@src返回图片的url
/following-sibling::div选择某元素之后的所有div元素

Scrapy Shell

指令功能
scrapy shell -s USER_AGENT=“Mozilla/5.0” URL地址基本URL请求
scrapy shell --pdb URL地址交互式调试
scrapy startproject 项目名称创建Scrapy项目
scrapy genspider basic web在spider文件夹自动创建一个默认爬虫“basic.py”
scrapy genspider -l查看其他爬虫模板
scrapy genspider -t使用其他模板创建爬虫
scrapy crawl basic(爬虫名)运行爬虫
scrapy parse --spider=basic(爬虫名) url解析任意相似URL
scrapy crawl basic(爬虫名)-o items.json(json文件名)保存为json文件
scrapy crawl basic(爬虫名)-o items.csv(csv文件名)保存为csv文件
Ctrl+D退出Scrapy Shell

Response

指令功能
response.body响应体内容
response.xpath(xpath路径)根据xpath路径返回网页内容预加载的Selector对象
response.css()根据css内容(css规则书写)返回网页内容预加载的Selector对象
response.xpath() .extract()返回xpath对象的文本数组
response.xpath() .re()使用正则表达式匹配内容
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值