Beautiful Soup库丨Python爬虫基础入门系列(2)

最新推荐文章于 2024-10-18 00:00:00 发布

互联网阿星

最新推荐文章于 2024-10-18 00:00:00 发布

阅读量208

点赞数 5

文章标签： python 爬虫网络爬虫数据挖掘 html

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_68103523/article/details/124273948

版权

本文介绍了Beautiful Soup4库在Python爬虫中的应用，包括库的安装、使用方法、基本元素以及HTML内容的遍历方法。通过实例展示了如何利用BS4解析和提取HTML数据，强调其人性化API和对CSS选择器的支持。

摘要由CSDN通过智能技术生成

提示：文末戳我名片>>Free领>>全套Python爬虫学习资料

文章目录

前言
Beautiful Soup库
总结

前言

bs4库与 lxml库的区别
BeautifulSoup4 是一个 HTML/XML 的解析器，主要的功能是解析和提取 HTML/XML 的数据，和 lxml 库一样。

lxml 只会局部遍历，而 BeautifulSoup4 是基于HTML DOM的，会加载整个文档，解析整个DOM树，因此内存开销比较大，性能比较低。

BeautifulSoup4 用来解析HTML比较简单，API使用非常人性化，支持CSS选择器，是Python标准库中的HTML解析器，也支持lxml解析器。

话不多说，开始学习
在这里插入图片描述

Beautiful Soup库

1、安装Beautiful Soup库

打开cmd，输入pip install beautifulsoup4

2、使用Beautiful Soup库

from bs4 import BeautifulSoup

soup=BeautifulSoup(data,'html.parser')

其中data为爬取的网页源代码，html.parser为对data的解释器。

3、bs4库的基本元素

bs4库的理解

bs4库是解析、遍历、维护“标签树”的功能书。

<p class="title">..</p>

<p>..</p>是以p为名称的标签类型。

class=“title”是该标签的属性域，是一个键值对。

引用方式

from bs4 import BeautifulSoup

import bs4

解析器

bs4的HTML解析器：BeautifulSoup

最低0.47元/天解锁文章

互联网阿星

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

互联网阿星 CSDN认证博客专家 CSDN认证企业博客

码龄3年

38: 原创

38万+: 周排名

219万+: 总排名

4万+: 访问

: 等级

748: 积分

65: 粉丝

173: 获赞

105: 评论

413: 收藏

私信

关注

热门文章

最新评论

下篇丨月薪3w还能天天摸鱼？再整10个Python小游戏【附源码】
锐火箭: 博主厉害！
Python爬虫获取tieba公开数据丨Python基础实战系列(3)
邓邓邓呀: 我换一个url地址又可以了[code=python] import time from urllib import parse, request class TiebaSpider(object): # 初始化url属性 def __init__(self): # 定义变量前加self，代表在class 【TiebaSpider】里属于全局变量 self.url = 'https://tieba.baidu.com/f/search/res?isnew=1&kw=&{}' # 1.请求函数，得到页面，传统三步 def get_html(self, url): req = request.Request(url) res = request.urlopen(req) # windows会存在乱码问题，需要使用 gbk解码，并使用ignore忽略不能处理的字节 # linux不会存在上述问题，可以直接使用decode('utf-8')解码 html = res.read().decode('gbk', 'ignore') return html # 2.解析函数，此处代码暂时省略，还没介绍解析模块 def parse_html(self): pass # 3.保存文件函数 def save_html(self, filename, html): with open(filename, 'w') as f: f.write(html) # 4.入口函数 def run(self): name = input("请输入查询内容：") begin = int(input("请输入起始页数：")) stop = int(input("请输入终止页数：")) # 遍历页面数量，range不会取到结尾值，+ 1保证取到指定数字 for i in range(begin, stop + 1): [/code]
Python爬虫获取tieba公开数据丨Python基础实战系列(3)
邓邓邓呀: 报错了
Python爬虫获取tieba公开数据丨Python基础实战系列(3)
邓邓邓呀: UnicodeEncodeError: 'latin-1' codec can't encode characters in position 5-6: ordinal not in range(256)
9个爬虫基础实战汇总+4个专业爬虫练手站推荐
miluk161: 期待博主更多的爬虫实战

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。