Python 爬虫基础教程——BeautifulSoup抓取入门（1）

最新推荐文章于 2024-08-19 09:22:32 发布

十先生(公众号：Python知识学堂）

最新推荐文章于 2024-08-19 09:22:32 发布

阅读量653

点赞数

分类专栏： python爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/th1522856954/article/details/114045894

版权

大家好，上篇推文介绍了爬虫方面需要注意的地方、使用vscode开发环境的时候会遇到的问题以及使用正则表达式的方式爬取页面信息，本篇内容主要是介绍BeautifulSoup模块的使用教程。

一、BeautifulSoup介紹

引用官方的解释：

Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.

简单来说Beautiful Soup是python的一个库，是一个可以从网页抓取数据的利器。

官方文档：

https://beautifulsoup.readthedocs.io/zh_CN/v4.4.0/

二、BeautifulSoup安裝

pip install beautifulsoup4

或

pip install beautifulsoup4

-i http://pypi.douban.com/simple/

--trusted-host http://pypi.douban.com

顺便说一句：我使用的开发工具还是vscode，不清楚的看一下之前的推文。

三、BeautifulSoup解析器

3.1 html.parse

html.parse 是内置的不需要安装的

import requests
from bs4 import BeautifulSoup


url='https://www.baidu.com'
response=requests.get(url)
response.encoding = 'utf-8'
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.prettify())

结果

3.2 lxml

lxml 是需要安装 pip install lx

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

十先生(公众号：Python知识学堂）

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

BeautifulSoup简明教程

bsxylj的专栏

10-15

150

官方中文帮助文档安装 conda install bs4 conda install lxml tag对象 .name .string [‘attr’] [‘class’] [‘id’] #寻找tag的方法直接定位tag对象（这个不常用） soup.head.title 用根对象层层找下去，找到第一个就返回。返回一个tag对象 CSS选择器 select/select_one tag.select(‘html head title’) # 按名字找，逐层查找，有子孙关系即可返回tag列

vscode安装beautifulsoup_Python 爬虫基础教程——BeautifulSoup抓取入门（1）

weixin_39637179的博客

02-04

4010

大家好，上篇推文介绍了爬虫方面需要注意的地方、使用vscode开发环境的时候会遇到的问题以及使用正则表达式的方式爬取页面信息，本篇内容主要是介绍BeautifulSoup模块的使用教程。一、BeautifulSoup介紹引用官方的解释：Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库.它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式.简单来说...

1 条评论您还未登录，请先登录后发表或查看评论

BeautifulSoup的基础语法

s44359487yad的博客

08-19

1251

注意：前面定义的HTML源码标签对是缺少结束标签的，即没有和标签，但是使用prettify()函数输出的结果已经自动补齐了结束标签，这是BeautifulSoup的一个优点。比如“< a class=“poet” href=“http://example.com/dufu” id=“link1”>杜甫< /a>”，通过调用find_all(‘a’)函数获取所有超链接的HTML源码，再调用get(‘href’)获取超链接的内容，href属性对应的值为：http://example.com/dufu。

beautifulsoup教程

雨夜的博客

08-28

898

beautifulsoup教程 #yuxiangShi/学习/爬虫/beautifulsoup教程 BeautifulSoup4是爬虫必学的技能。BeautifulSoup最主要的功能是从网页抓取数据，Beautiful Soup自动将输入文档转换为Unicode编码，输出文档转换为utf-8编码。BeautifulSoup支持Python标准库中的HTML解析器,还支持一些第三方的解析器，如果我们不安装它，则 Python 会使用 Python默认的解析器，lxml 解析器更加强大，速度更快，推荐使用l

Python爬虫库-BeautifulSoup的使用

IT派

07-01

750

Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库，简单来说，它能将HTML的标签文件解析成树形结构，然后方便地获取到指定标签的对应属...

python BeautifulSoup 安装

rrr4578的专栏

04-01

1101

windows下面 BeautifulSoup 安装：安装包到：http://www.crummy.com/software/BeautifulSoup/#Download 下载文档：http://www.crummy.com/software/BeautifulSoup/documentation.html 有中文文档下载后解压，然后进入目录执行： 1, python

beautifulsoup爬取网页中的表格_Python 爬虫基础教程——BeautifulSoup抓取入门

weixin_39923945的博客

11-20

1649

点击上方蓝色文字关注我们吧有你想要的精彩作者| 東不归出品 | Python知识学堂大家好，上篇推文介绍了爬虫方面需要注意的地方、使用vscode开发环境的时候会遇到的问题以及使用正则表达式的方式爬取页面信息，本篇内容主要是介绍BeautifulSoup模块的使用教程。BeautifulSoup介紹引用官方的解释：Beautiful Soup 是一个可以从HTML或XML文件中提取数据...

python爬虫实例——基于BeautifulSoup与urllib.request

08-12

总之，理解并掌握`urllib.request`和`BeautifulSoup`的使用是Python爬虫初学者的基础课。通过实践这样的实例，你可以更深入地了解网络请求的原理，学习如何解析和提取HTML中的有用信息，从而为后续更复杂的爬虫项目...

Python爬虫入门教程：超级简单的Python爬虫教程.pdf

03-20

### Python爬虫入门教程知识点详解 #### 一、理解网页结构在进行Python爬虫开发之前，首先要了解网页的基本构成。网页通常包含三个主要部分：HTML（超文本标记语言）、CSS（层叠样式表）以及JavaScript（一种常用...

Python爬虫技术：使用BeautifulSoup与Scrapy进行网页抓取

最新发布

10-09

使用场景及目标：旨在帮助从业者掌握Python爬虫技术和具体工具的实际运用，有效抓取目标站点数据，并解决在实际工作中遇到的问题。本文还讲解了一些进阶话题如与Selenium结合解析动态加载内容、反爬措施的识别和...

Python中使用Beautiful Soup库的超详细教程

09-22

主要介绍了Python中使用Beautiful Soup库的超详细教程,示例代码基于Python2.x版本,极力推荐!需要的朋友可以参考下

BeautifulSoup教程

weixin_45890771的博客

11-18

2601

BeautifulSoup 是用于解析 HTML 和 XML 文档的 Python 库。它通常用于网页抓取。 BeautifulSoup 将复杂的 HTML 文档转换为复杂的 Python 对象树，例如标记，可导航字符串或注释。安装 BeautifulSoup 我们使用pip3命令安装必要的模块。 $ sudo pip3 install lxml 我们需要安装 BeautifulSoup 使用的lxml模块。 $ sudo pip3 install bs4 上面的命令将安装 Beau

Beautiful Soup使用教程

m0_73291751的博客

04-16

903

可以直接对tag.string和tag.attrs进行修改，也可以使用tag.string.replace_with()和tag.attrs['属性名']进行修改。可以使用Beautiful Soup提供的方法创建新的标签，例如new_tag、new_string等。可以使用tag.string获取标签内容，使用tag.attrs获取标签属性。以上是Beautiful Soup的基本使用方法，可以根据实际需要进行灵活运用。# 获取a标签的href属性。# 修改a标签的href属性。# 创建一个新的a标签。

Python BeautifulSoup 库使用教程

m0_56208280的博客

11-12

536

BeautiSoup 库主要用来解析 HTML 格式的网络文件，通过解析文档为用户提供需要抓取的数据。

python beautiful soup库的用法

weixin_34127717的博客

03-09

3125

参考：http://cuiqingcai.com/1319.html Beautiful Soup 4.2.0 文档 1. Beautiful Soup 简介简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。官方解释如下： Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索...

BeautifulSoup的使用与入门

qq_46433748的博客

02-21

1826

它支持多种解析器，包括python标准库、lxml HTML解析器、lxml XML解析器、html5lib等。结合稳定性和速度，这里推荐使用lxml HTML解析器。如果lxml不能正确解析内容，这是可以使用html5lib。

Beautiful Soup 基本使用方法