python之beautifulsoap知识点

        beautifusoap库简称bs在爬虫中比较方便。

1.  find_all()函数返回的是list,即使只有一个数据,find()函数返回的是查找到的第一个数据。

2. 如果查找抓取数据div的参数属性,可以通过div[属性]或者div.attrs或者div.get(属性)等方法。其中attrs是一个字典形式,需要继续提取

3.  div.string 使用这个需要这样的条件:div标签里面有且仅有一个内容。如果div标签或者其子标签也有内容,则可以使用div.strings,其返回为列表。

4. div.contents 抓取div的所有直接子节点,以list形式;div.children与contents雷同,只是其输出为生成器,需要使用for。div.descendants 抓取div的所有子节点,从大到小。这三个关键字抓取的数据较杂

5. div.parent 和div.parents较简单

6. div.next_sibling 和div.previous_sibling 是前后兄弟节点,分等级的

7.next_element 是下一节点,部分等级,就是下一个tag,可以遍历文档中所有的内嵌节点

转载于:https://www.cnblogs.com/xuehaiwuya0000/p/10471103.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值