bs4和lxml

周所周知,bs4和lxml是非常流行的两个python模块,他们常被用来对抓取的网页进行解析,以便进一步抓取的进行。作为一个爬虫爱好者,今天我来讲讲这两个各自的优点和不足,不对的地方还请各位大神斧正。

BeautifulSoup

BeautifulSoup也是比较常用且使用简单的技术,由于在操作过程中,会将整个文档树进行加载然后进行查询匹配操作,使用过程中消耗资源较多。

文档地址

  • 对象结构
    1. Tag:标签对象
    2. NavigableString:字符内容操作对象
    3. BeautifulSoup:文档对象
    4. Comment:特殊类型的NavigableString

Tag

tag有2个重要属性,Name和Attributes,name可直接用.name来获取。Attributes属性可以用.attrs获取或者类似字典获取方式。

NavigableString

表示装tag中的字符串, unicode() 方法可以直接将 NavigableString 对象转换成Unicode字符串

Comment

是一个特殊类型的 NavigableString 对象

… 太多了暂停下

lxml

lxml是python的一个解析库,支持HTML和XML的解析,支持XPath解析方式,而且解析效率非常高

文档地址

re正则表达式

文档地址

匹配神器,速度快效率高

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值