Python BeautifulSoup4 我碰到的一些不常用的用法

1、查找某些无属性、无样式的标签

如果在某个ul下,有多个li,一半是有样式,一半是没有的,而刚好他们是两个类别,你也恰好需要这两个,例如:

html = '''
    <ul>
        <li>hello world!</li>
        <li class="hh">hello world!</li>
    </ul>
'''

倘若数量少,或是有奇偶对称倒好说,但如果是随机呢,之前记得xpath里,是有可以通过not(@属性)的方式,但是bs4里并没有,然后查了半天,翻到这篇,那我们可以设置class为False。

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'lxml')
# 注意不要把False带上引号
no_tag = soup.find('li',{'class':False})

这里写图片描述

2、多个查找条件

倘若比如a标签的class和alt标签每个单独都不是唯一的,但是组合在一起是唯一的,例如

html = '''
<a class="nav-span" href="//bbs.qyer.com/" data-bn-ipg="head-nav-community" title="穷游论坛">社区</a>
'''

我们知道attrs是个字典,里面可以包含多组key-value,不过一开始没有想到,后来突然想到的,只需要在attrs(可省略)里加入就好,不过很少有这样用的情况,

soup.find('a',{'class':'nav-span','data-bn-ipg':'head-nav-community'})

这里写图片描述

我在测试的时候发现个不稳定因素,测试用的ipython。
可以看到title中有中文,我们查找返回的是unicode编码,你扔中文进去也不一定对,但是我测试成功了一次,而且是爬的整个页面,然后直接测试的,但建议还是不要使用有中文的作为查询条件。

3、查找某个属性的class返回的是个列表,因为可能class会有多个样式,而id只有一个,且唯一

html1 = '''
    <p class="type" id="city">房型:双人间</p>
'''

这里写图片描述

可以看到class返回的是个列表,而id是字符串。
并且测试的时候发现,当html里除了一个id标签没有其他标签时,试图直接用soup.p[‘id’]的时候都会报错,这也是为什么我前面扔了一个同时有class和id的html,错误如图:

这里写图片描述

原因在于id因为是属性,一般用的时候是和attrs一起用,现发现也可以省略,它要想获得它的id,必须先获得这整个html及其内容,然后再获取其内容。所以如果只有id这个标签,必须先将soup.p赋给一个变量,然后用这个变量去获得id值:
这里写图片描述

  • 3
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值