python爬虫之 BeautifulSoup4库 content和text

最新推荐文章于 2022-11-03 18:14:14 发布

m0_53762615

最新推荐文章于 2022-11-03 18:14:14 发布

阅读量428

点赞数

文章标签：爬虫 python

本文链接：https://blog.csdn.net/m0_53762615/article/details/124900378

版权

本文介绍了BeautifulSoup4在Python爬虫中的使用，包括如何安装、创建BeautifulSoup对象，以及通过.response.content和.response.text获取网页内容的方法。重点讨论了.content返回的bytes类型数据需要解码显示的问题。

摘要由CSDN通过智能技术生成

介绍：

BeautifulSoup 是一个HTML/XML的解析器，主要的功能是如何解析和提取 HTML/XML 数据；

Beautiful Soup 会载入整个文档，解析整个DOM树。

安装：

安装Beautiful Soup 4 版本

安装命令：

pip install beautifulsoup4

首先发起一个get请求，得到一个response

response = requests.get(url,headers=headers)

打印response类型

print(type(response))
# <class 'requests.models.Response'>

是Response对象，Response对象里面有响应头（内容类型，内容长度，服务器信息，设置Cookie等；相应体（最重要的部分，包含请求资源的内容，如网页HTML，图片，二进制数据等）；

获取响应体里最重要的部分使用 .content .text

———————————————————————————————————————————

response.content
打印它的类型

print(type(content))
#<class 'bytes'>
</

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

m0_53762615

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

[Python从零到壹] 六.网络爬虫之BeautifulSoup爬取作者个人博客网站详解

杨秀璋的专栏

02-17

1万+

前一篇文章讲述了BeautifulSoup技术，它是一个可以从HTML或XML文件中提取数据的Python库，一个分析HTML或XML文件的解析器，包括安装过程和基础语法。这篇文章将详细讲解 BeautifulSoup 爬取作者个人博客网站，通过案例的方式让大家熟悉Python网络爬虫，同时作者博客网站也是非常适合入门的案例，也能普及简单的预处理知识。希望对您有所帮助

[Python从零到壹] 五.网络爬虫之BeautifulSoup基础语法万字详解

杨秀璋的专栏

11-08

1万+

欢迎大家来到“Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合案例、代码和作者的经验讲解，真心想把自己近十年的编程经验分享给大家，希望对您有所帮助，文章中不足之处也请海涵。Python系列整体框架包括基础语法10篇、网络爬虫30篇、可视化分析10篇、机器学习20篇、大数据分析20篇、图像识别30篇、人工智能40篇、Python安全20篇、其他技巧10篇。您的关注、点赞和转发就是对秀璋最大的支持，知识无价人有情，希望

参与评论您还未登录，请先登录后发表或查看评论

BeautifulSoup总结及contents内容分析

我觉得你很优秀啊

12-05

3630

文章目录遇到的问题BeautifulSoup四类主要节点TagNavigableStringBeautifulSoupComment遍历文档树子节点父节点兄弟节点回退和前进搜索文档树过滤器find_all()find(), find_parent(), find_sibling(), find_next()等修改文档树输出一些其他细节编码问题解析器代码诊断效率问题遇到的问题今天爬取一个新闻网站...

beautifulSoup详解

weixin_45203459的博客

10-17

2058

BeautifulSoup Beautiful Soup和lxml、html6lib同样作为python解释器，为用户灵活地提供不同的解析策略或强劲的速度。BeautifulSoup是一个工具箱,通过解析文档为用户提供需要抓取的数据,操作简单，代码简洁能自动补全代码中确实的标签第一种用法创建 beautifulsoup 对象： soup=BeautifulSoup(html,‘lxml’) ...

Beautiful Soup的用法

aaron_0312的博客

06-26

162

1. Beautiful Soup的简介简单来说，Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据。 2. Beautiful Soup 安装 pip install beautifulsoup4 3.创建 Beautiful Soup 对象 from bs4 import BeautifulSoup soup = BeautifulSou...

Python爬虫基础（2） —— BeautifulSoup(解析数据，提取数据)

Nurbiya_K的博客

03-15

1992

获取网页源代码： import requests #调用requests库 res=requests.get('URL') #URL是网页链接 html=res.text #把res的内容以媳妇穿的形式返回 print('响应状态码：',res.status_code) #检查请求是否正确响应 print(html) #输出网页源代码 ...

BeautifulSoup的基本用法

Lulala_Master的博客

04-25

441

BeautifulSoup的基本用法 from bs4 import BeautifulSoup from urllib import request import requests web = 'https://www.csdn.net/' html = request.urlopen(web) soup = BeautifulSoup(html,'lxml') print(soup.title) #<title>CSDN - 专业开发者社区</title> print(soup

python爬虫学习笔记之Beautifulsoup模块用法详解

09-17

**Python 爬虫Beautifulsoup模块详解** 在Python爬虫领域，Beautifulsoup是一个不可或缺的工具，它是一个用于从HTML或XML文件中提取数据的库。它提供了简单的API，使得开发者可以方便地对网页进行导航、搜索和修改...

python爬虫入门——requests库、BeautifulSoup库和re库

GuFeng1999的博客

10-22

1719

对于大多数网页，如果它们的页面是由html代码静态生成的，那么我们可以通过访问网页的源代码，即网页对应的html文档内容，从文档中解析出我们想要的内容，然后将其摘录下来，存储在一定的数据结构中

BeautifulSoup 获取 a标签里的文本内容

12-21

说明想要获取 a标签里的单词如下所示。代码 from bs4 import BeautifulSoup f = open("word.txt", "r") # 设置文件对象 html = f.read() # 将txt文件的所有内容读入到字符串html中 soup = BeautifulSoup(html, 'lxml') # 获取a标签里的文本内容 for item in soup.find_all("a"): print(item.string) # 将单词写入five_star.txt 文件 with open('five_star.txt', 'a',

python 爬虫提取文本之BeautifulSoup详细用法

IT_arookie的博客

09-23

3万+

提取网页内容四大基本方法之 2.beautifulsoup的使用 bs4模块准备代码信息，用来练习获取内容: from bs4 import BeautifulSoup #准备代码信息，用来练习获取内容 html =''' &lt;html&gt; &lt;head&gt;&lt;title&gt;The Dormouse's story&lt;/title&

0基础 | BeautifulSoup进行页面内容提取

热门推荐

步步拾遗

09-23

8万+

转自https://www.crifan.com/python_beautifulsoup_string_vs_text/ 【背景】是别人问我的： BeautifulSoup 4中，soup.string和soup.text何有区别。【折腾过程】 1.去beautifulsoup的官网： bs3： http://www.crummy.com/software/Beautifu

python爬虫beautifulsoup_Python爬虫beautifulsoup4常用的解析方法总结

weixin_39642998的博客

12-03

178

摘要如何用beautifulsoup4解析各种情况的网页beautifulsoup4的使用关于beautifulsoup4，官网已经讲的很详细了，我这里就把一些常用的解析方法做个总结，方便查阅。装载html文档使用beautifulsoup的第一步是把html文档装载到beautifulsoup中，使其形成一个beautifulsoup对象。import requestsfrom bs4 impo...

BeautifulSoup4的基本使用

AdleyTales的技术博客

01-25

2万+

BeautifulSoup4的基本使用序：BeautifulSoup是python解析html非常好用的第三方库！安装： pip install beautifulsoup4 基本使用： from bs4 import BeautifulSoup html_str = """

python 学习笔记（二）——Beautifulsoup网络爬虫

德尔塔Q

03-14

450

python 网络爬虫学习第二天学习 Beautifulsoup 库，进行网络爬虫，项目：中国天气网数据挖掘。安装库首先安装好需要的库 bs4 pip install bs4 要点记录网页解析遇到的解析方式主要是 lxml 和 html5lib，网页不完整时，可用 html5lib 进行解析，防止出错。下面我就直接上代码 bs = BeautifulSoup...

beautifulsoup解析动态页面div未展开_网络爬虫之页面解析

weixin_33138569的博客

12-19

777

作者：玩世不恭的Coder时间：2020-03-13说明：本文为原创文章，未经允许不可转载，转载前请联系涛耶网络爬虫之页面解析前言一、Beautiful Soup就该这样使用节点选择数据提取Beautiful Soup小结二、XPath解析页面节点选择数据提取XPath小结三、pyquery入门使用节点选择数据提取pyquery小结四、腾讯招聘网解析实战网页分析：案例源码总结前言With...

Python爬虫中使用BeautifulSoup和样式选择器提取HTML信息

"这篇文档是关于在Python爬虫中如何使用样式选择器，特别是通过BeautifulSoup库来解析HTML文档并提取所需信息。" 在Python的网络爬虫开发中，BeautifulSoup是一个非常流行的库，用于解析HTML和XML文档。它允许...