pyspider中内容选择器常用方法汇总

最新推荐文章于 2022-07-22 11:50:18 发布

weixin_33916256

最新推荐文章于 2022-07-22 11:50:18 发布

阅读量468

点赞数 2

原文链接：http://www.cnblogs.com/wangzhisdu/p/7771934.html

版权

pyspider 的内容选择器默认已经实例化一个pyquery对象，可以直接使用pyquery的api来获取自己需要的内容。

1.在pyquery中使用response.doc就可以直接实例化一个pyquery对象，就可以直接在里面使用pyquery方法了

2.html()和text() ——获取相应的HTML块或文本块

例：html:"<head><title>hello</title></head>"

response.doc('head').html()#返回<title>hello</title>
response.doc('head').text()#返回hello

3.根据HTML标签来获取元素

例：html:'<div><p>test 1</p><p>test 2</p></div>'
response.doc('p')#返回[<p>,<p>]
print response.doc('p')#返回<p>test 1</p><p>test 2</p>
print response.doc('p').html()#返回test 1
注意：当获取到的元素不只一个时，html()、text()方法只返回首个元素的相应内容块

4.eq(index) ——根据给定的索引号得到指定元素

接上例，若想得到第二个p标签内的内容，则可以：

print response.doc('p').eq(1).html() #返回test 2

5.filter() ——根据类名、id名得到指定元素

例：html:"<div><p id='1'>test 1</p><p class='2'>test 2</p></div>"

response.doc('p').filter('#1') #返回[<p#1>]
response.doc('p').filter('.2') #返回[<p.2>

6.find() ——查找嵌套元素

例：html:"<div><p id='1'>test 1</p><p class='2'>test 2</p></div>"

response.doc('div').find('p')#返回[<p#1>, <p.2>]
response.doc('div').find('p').eq(0)#返回[<p#1>]

7.直接根据类名、id名获取元素

例：html:"<div><p id='1'>test 1</p><p class='2'>test 2</p></div>"

response.doc('#1').html()#返回test 1
response.doc('.2').html()#返回test 2

8.获取属性值

例：html:"<p id='my_id'><a href='http://hello.com'>hello</a></p>"

response.doc('a').attr('href')#返回http://hello.com
response.doc('p').attr('id')#返回my_id

9.获取内容的一部分可以用分割字符串法：

例：html:"<p id='my_tel'>姓名电话</p>"
response.doc('#my_tel').text().split(' ')[0]用来取“姓名” response.doc('#my_tel').text().split(' ')[1]用来取“电话”

转载于:https://www.cnblogs.com/wangzhisdu/p/7771934.html

weixin_33916256

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
pyspider中内容选择器常用方法汇总

pyspider的内容选择器默认已经实例化一个pyquery对象，可以直接使用pyquery的api来获取自己需要的内容。1.在pyquery中使用response.doc就可以直接实例化一个pyquery对象，就可以直接在里面使用pyquery方法了2.html()和text() ——获取相应的HTML块或文本块例：html:"<head><title>he...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。