【原创】Python PyQuery&nbsp…

新浪微博对标签和文本支持不是很好,所以很多标签 文本被当作html标签了,大致意思还是可以懂的
有一段html如下:
    P1
    B1-Child
    P-Parent
    B2-Child
    P2



con = "

P1 B1-Child P-Parent B2-Child P2

"

>>> pq(con).text()
'P1 B1-Child P-Parent B2-Child P2'

>>> pq(con)[0].text
'P1' 
#此处注意:如果要获取父标签的内容,只能获取到父标签第一个子标签之前的内容。
>>> pq("P")[0].text
'P'
>>> pq("P")[0].text
>>> pq("P1 P2")[0].text
'P1'

如果要要获取父标签(不含自标签)所有内容,需要将子标签remove掉。
>>> pq("P1 P2").remove('b').text()
'P1 P2'

>>> pq(con).remove('b').text()
'P1 P-Parent P2'

#同理,如果子标签有多个,可以使用逗号','分割
>>> pq(" P1 P2").remove('b, a').text()
'P1 P2'
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值