python scrapy框架简书_3.python爬虫之scrapy 框架抽取数据

weixin_39787594

于 2020-11-26 06:14:52 发布

阅读量107

点赞数

文章标签： python scrapy框架简书

srapybook的所有的代码地址:

https://github.com/scalingexcellence/scrapybook

直接克隆到本地就可以运行

2.在win10系统中

安装scrapy: pip install scrapy ,检查安装成功否 : scrapy -- version

3.利用 scrapy shell 调试要爬取的网站,用 ctrl + D 退出

scrapy shell https://www.baidu.com

aae02705ed7a

aae02705ed7a

输入 response.body 查看返回的网页结构,例子:

aae02705ed7a

抽取前50个字符

4.可以用response.xpath()语法来抽取网页结构中需要的数据

注释:

①通常用 /text() 来获取标签里面的文本内容,

②在xpath的后面加上 .extract() 就表示直接提出内容,不加.extract() 就是返回选择器本身,实例如图:

response.xpath('//h1/text()').extract()

aae02705ed7a

5.数据抽取

Selector 选择器 response.xpath() 和 response.css()

①. xpath() 和css() 都只返回选择器,只有调用extract() 或者re() 方法的时候,才返回真是的文本数组(list),

In [18]: response.css('.grid')[1].extract()

Out[18]: '

热门经验

'

②.这两个选择器可以相互串联起来使用,

In [20]: response.css('.grid')[1].xpath('text()')

Out[20]: []

In [21]: response.css('.grid')[1].xpath('text()').extract()

Out[21]: ['热门经验']

③.总结: xpath() 和css(), extract()和re()正则串联用法

response.css('.grid')[1].xpath('text()').re('[.0-9]+')

weixin_39787594

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python scrapy框架简书_3.python爬虫之scrapy 框架抽取数据

srapybook的所有的代码地址:https://github.com/scalingexcellence/scrapybook直接克隆到本地就可以运行2.在win10系统中安装scrapy: pip install scrapy ,检查安装成功否 : scrapy -- version3.利用 scrapy shell 调试要爬取的网站,用 ctrl + D 退出scrapy shell...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。