BeautifulSoup定位元素

该博客介绍了如何利用Python的BeautifulSoup库来解析HTML文档,特别是找到所有class为'clearfix'的li元素。通过find_all方法,可以获取到这些元素,并进一步提取出a标签内的href属性和文本内容。内容涉及网页抓取与数据分析的基础技巧。
摘要由CSDN通过智能技术生成

一.

二. select

三. find和find_all

tgt=soup.find_all('li',attrs={'class':'clearfix'})

1. 'li'表示要定位的标签;'class'表示标签‘li’的属性,‘clearfix’表示标签‘li’中属性‘class’的属性值。

①函数会首先定位标签li,然后匹配标签li内的class属性值。此处是模糊匹配,即属性class的值为‘xxxclearfixxxx’也符合匹配要求。

②find返回匹配的第一个对象,find_all返回匹配的所有对象。

2.find_all的返回值类型是list。

for item in tgt:
    print(type(item))
    print(item['href'])
    print(item.text)

①item的形式应当如下,只有一个类型的标签,此处为‘a’:

<a href="http://stock.finance.sina.com.cn/hkstock/go/CompanyNoticeDetail/code/09939/aid/1006221.html" target="_blank">公告 内幕消息 普克鲁胺单药于中国III期...</a>

②当item的类型为<class 'bs4.element.Tag'>:

   item['href']得到标签a内的href属性值如下:http://stock.finance.sina.com.cn/hkstock/go/CompanyNoticeDetail/code/09939/aid/1006221.html

   item.text得到标签的内容如下:

公告 内幕消息 普克鲁胺单药于中国III期...

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值