BeautifulSoup与lxml

本文介绍了BeautifulSoup和lxml在爬虫中的使用,重点讲解了BeautifulSoup的节点操作、查找方法以及CSS选择器,同时提到了lxml的特性,包括XPath和CSS选择器的使用。
摘要由CSDN通过智能技术生成

        在爬虫中,BeautfulSoup和lxml都是用来分析网页的,其中BeautifulSoup使用简单,但速度慢,也可以使用正则表达式来分析网页,获取有价值信息,但是正则表达式使用起来复杂,优点是速度快,最后lxml集合BeutifulSoup和正则表达式的优点,使用简单,速度也不比正则表达式慢。


一、BeautifulSoup

1、使用BeautifulSoup

        使用BeautifulSoup需要从bs4模块导入BeautifulSoup,使用Beautiful有四种模式,具体看下图:



2、将html或者xml以适合人阅读的方式打印

        BeautifulSoup对象的.prettify(),可以为Tag(标签、节点)换行补充,使得html和xml字符串容易理解。

print(soup.prettify())


3、获取tag的名字和属性

        tag.name获取当前节点的名字

        tag['xxx']获取当前节点的xxx属性值

        tag.string获取当前节

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值