Beautiful Soup库的基本使用

学习爬虫的小笔记,希望能和大家一起进步哈。
爬虫爬一般都是网页信息,beautifulsoup能够使用html.parse对网页信息进行解析,一个beautifulsoup对应一个网页的内容,就是使用requests(url)返回的对象的text。

下面讲一下beautifulsoup的几个基本元素:
在这里插入图片描述
举几个例子说明一下吧。
tag是带有<>…</>标签的一段内容,比如我们现在已经通过beautifulsoup获得了一个soup,在soup下有一个a的子标签,那么tag=soup.a返回的就是…中的全部内容。

name就是…中的a,也可以通过soup.a.parent.name来访问它的父节点的名字。

attr是<a class:‘name’>…中的以字典形式组织的属性值。可以通过soup.a.attrs(class),返回的是‘name’。

string是返回非属性的字符串的格式,comment是返回该标签中的comment部分,都是对tag进行的操作。

另外,使用bs4库中的prettify()来使html更加友好地显示,还可以使用遍历的方法来分析网页结构。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值