Python爬虫学习(三)使用Beautiful soup

本文介绍了如何使用Python的BeautifulSoup库解析HTML文档。包括初始化BeautifulSoup对象、选择节点元素、获取节点内容及利用关联选择器获取子节点、父节点和兄弟节点的方法。此外,还讲述了find_all方法和CSS选择器的使用技巧。
摘要由CSDN通过智能技术生成

1.使用lxml解析器,初始化Beautiul Soup时,把第二个参数改成lxml即可

from bs4 import BeautifulSoup

soup=BeautifulSoup('<p>hello</p>','lxml')

print(soup.p.string)

2.节点选择器

直接调用节点的名称就可以选择节点玄素,在调用string属性就可以得到节点内的文本了。当有多个节点时,这种方式只会选择第一个匹配的节点,其他的后边节点都会忽略。

返回的结果都是bs4.element.Tag类型

3.关联选择

选取节点元素之后,如果想要获取它的直接子节点,可以调用contents属性。

同样,我们可以调用children属性得到相应的结果,得到的是一个生成器,用for循环遍历即可

如果想要得到所有的子孙节点,可以调用descendants属性。

如果想要获取某个节点元素的父节点,可以调用parent属性

兄弟节点

next_sibling 和previous_sibling 分别获取节点的下一个和上一个兄弟元素,返回是所有的,是一个生成器

3.方法选择器

soup.find_all(name='ul')返回的是html中文本的所有ul的列表
 
for ul in soup.find_all(name='ul'):
    print(ul.find_all(name='li'))
返回ul中的li的列表
attrs  

print ( soup . find_all ( attrs = { 'id' : 'list-1' } ) )
print ( soup . find_all ( attrs = { 'name' : 'elements' } ) )

返回的是列表,小知识,如果是class属性,class_ 因为class在Python中是一个关键字

4.css选择器

select

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值