第三课 Python爬虫Beautifulsoup4模块的使用

最新推荐文章于 2022-05-21 21:41:20 发布

dyboy2017

最新推荐文章于 2022-05-21 21:41:20 发布

阅读量1.4k

点赞数

分类专栏： Python爬虫入门学习之道文章标签： python 学习开发记录爬虫

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/dyboy2017/article/details/77866147

版权

学习之道同时被 2 个专栏收录

25 篇文章 0 订阅

订阅专栏

Python爬虫入门

14 篇文章 0 订阅

订阅专栏

Beautifulsoup作用：

将网页（非结构化内容）转化成结构化内容

.text取得bs对象的文字内容（去除HTML标签）

现在令一个新的字符串：

html sample ='

Hello World!

将字符串转化为bs对象：

soup = BeautifulSoup(html_sample)

去除警告信息的方法：

原因：因为没有指定“剖析器”

解决：

soup = BeautifulSoup(html_sample,'html.parser')

找寻特定元素：

#使用select找出含有h1标签的元素

alink = soup.select('h1')

print(alink)

Print(alink[0])

输出的是内容，没有中括号

print(alink[0].text)

输出标签内的文字

#使用select找出含有a标签的元素

alink = soup.select('a')

print(alink)

#使用select找出id="title"的内容(id前面需要加上#)感觉就类似CSS语法

alink = soup.select('#title')

print(alink)

#使用select找出class="link"的内容(class前面需要加上.)

alink = soup.select('.link')

print(alink)

我们看到输出多个结果，以列表的形式存储

相信这样大家就会更加清晰明白了：

循环输出：

for link in alink:

print(link)

.text的利用

获取a标签的href属性：

for link in alink:

print(link['href'])

会把href等属性包装成一个字典故很方便地取到数据！

取属性值：

html_sample2 = ' hello world! hello world2!'

soup2 = BeautifulSoup(html_sample2,'html.parser')

print(soup2.select('a')[0]['id'])

print(soup2.select('a')[1]['id'])

注：本文属于原创文章，转载请注明版权！

CSDN博客主页：http://blog.csdn.net/dyboy2017

Github开源项目：https://github.com/dyboy2017/spider

Beautifulsoup作用：

将网页（非结构化内容）转化成结构化内容

.text取得bs对象的文字内容（去除HTML标签）

现在令一个新的字符串：

html sample ='

Hello World!

将字符串转化为bs对象：

soup = BeautifulSoup(html_sample)

去除警告信息的方法：

原因：因为没有指定“剖析器”

解决：

soup = BeautifulSoup(html_sample,'html.parser')

找寻特定元素：

#使用select找出含有h1标签的元素

alink = soup.select('h1')

print(alink)

Print(alink[0])

输出的是内容，没有中括号

print(alink[0].text)

输出标签内的文字

#使用select找出含有a标签的元素

alink = soup.select('a')

print(alink)

#使用select找出id="title"的内容(id前面需要加上#)感觉就类似CSS语法

alink = soup.select('#title')

print(alink)

#使用select找出class="link"的内容(class前面需要加上.)

alink = soup.select('.link')

print(alink)

我们看到输出多个结果，以列表的形式存储

相信这样大家就会更加清晰明白了：

循环输出：

for link in alink:

print(link)

.text的利用

获取a标签的href属性：

for link in alink:

print(link['href'])

会把href等属性包装成一个字典故很方便地取到数据！

取属性值：

html_sample2 = ' hello world! hello world2!'

soup2 = BeautifulSoup(html_sample2,'html.parser')

print(soup2.select('a')[0]['id'])

print(soup2.select('a')[1]['id'])

注：本文属于原创文章，转载请注明版权！

CSDN博客主页：http://blog.csdn.net/dyboy2017

Github开源项目：https://github.com/dyboy2017/spider

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
第三课 Python爬虫Beautifulsoup4模块的使用

Beautifulsoup作用：将网页（非结构化内容）转化成结构化内容.text取得bs对象的文字内容（去除HTML标签）现在令一个新的字符串：html sample ='Hello World!This is link1This is link2'将字符串转化为bs对象：soup = BeautifulSoup(
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。