python获取一个网页的所有文字，图片，保存为对应的txt和jpg文件

最新推荐文章于 2025-02-17 15:32:59 发布

csb7929

最新推荐文章于 2025-02-17 15:32:59 发布

阅读量1.2k

点赞数 19

文章标签： python

本文链接：https://blog.csdn.net/csb7929/article/details/138973293

版权

网络请求：使用Python发送HTTP请求获取网页内容，可以使用Python内置的urllib或第三方库requests。
解析HTML：解析获取到的网页内容，可以使用Python中的BeautifulSoup、lxml等库进行HTML解析。
提取文本：通过解析HTML文件，可以提取出网页中所有的文本内容，可以使用BeautifulSoup中的get_text()方法。
下载图片：通过解析HTML文件，可以提取出图片的链接，然后使用Python中的urllib或requests库下载图片。
保存文件：将提取的文本和下载的图片保存为对应的txt和jpg文件，可以使用Python内置的open()函数进行文件操作。

示例代码：

python
import requests
from bs4 import BeautifulSoup

# 发送网络请求
url = 'http://www.example.com'
response = requests.get(url)

# 解析HTML
soup = BeautifulSoup(response.text, 'lxml')

# 提取文本
text = soup.get_text()

# 下载图片并保存
for img in soup.find_all('img'):
img_url = img.get('src')
img_name = img_url.split('/')[-1]
r = requests.get(img_url)
with open(img_name, 'wb') as f:
f.write(r.content)

# 保存文本
with open('example.txt', 'w', encoding='utf-8') as f:
f.write(text)

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

csb7929

关注关注

19
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

【Python 实战】---- 批量识别图片中的文字，存入excel中【使用百度的通用文字识别】

止于至善

07-27

2356

识别存在一定的误差，所以对返回数据进行处理时，需要细心筛选你需要的数据；access_token 是 30 天有效期，因此建议请求一次，就将最新的进行存储到本地，下次直接使用本地有效 access_token；投资有风险，入行需谨慎。

python - 详细实现图片搜索引擎自动抓取相关图片，输入想要搜索的图片关键字自动查看并保存到本地功能效果，python如何做一个图片处理搜索引擎工具，根据关键字检索图片（完整源代码，直接复制运行）

高级前端工程师

01-10

3265

python，图片搜索引擎，python仿百度图片搜索引擎，python图片搜索引擎，根据关键字检索图像并保存，python如何实现根据文字搜索图像引擎，python图像搜索引擎，怎么使用用Python构建图片处理搜索引擎，图像根据文字搜索引擎源码，如何利用python实现一个图片搜索功能，python+openCV实现简单的图片搜索功能，用python做图片搜索引擎并保存到本地，【图片搜索神器】教你用Python通过图片上的文字内容做检索，图像搜索引擎的最佳Python库，Python从零搭建图像搜索引擎

参与评论您还未登录，请先登录后发表或查看评论

python提取网页文字图片

n320533510的博客

08-29

465

在Python中，可以使用BeautifulSoup库来提取网页中的文本，以及使用requests和PIL库来下载网页上的图片。

(python)入门小爬虫详细教程（获取网站的图片，文字等）

calmdownn的博客

08-05

2381

因为最近做了一个小型app，关于图像识别方向的，所以需要很多图片做数据集，一个个下载太慢了，所以就研究写了一个简单的小爬虫，就想着把这些经验记录下来，每一个网站的html结构都是不同的，所以对于不同的网站需要做出相应的更改，读这篇可能需要一些前端知识，总代码我发在最后了

Python实用技巧：轻松上手自动化数据爬取与存储

最新发布

这家伙很懒，什么都没有留下

02-17

1296

通过本文的介绍，你应该已经掌握了使用Python进行自动化数据爬取与存储的基本技能。从准备阶段的目标确定和工具安装，到编写爬虫程序、处理反爬虫机制、数据存储与处理，再到实战案例和优化维护，每一步都至关重要。希望这些知识和技巧能够帮助你在数据爬取的道路上走得更远，为数据分析和决策提供有力的支持。记住，数据爬取只是数据分析和挖掘的第一步。后续的数据清洗、分析、可视化等工作同样重要。只有综合运用这些技能，你才能从海量的互联网数据中提取出有价值的信息，为你的业务或研究带来真正的价值。

Python爬虫（3） --爬取网页文本

m0_74896766的博客

07-21

6348

指定url：找到网页地址发送请求：requests请求获取你想要的数据：文本接收，请求到的内容数据解析：xpath语言：定位到目标位置re正则匹配：精准取出目标内容，去除杂质。

python获取网页的信息并保存到Word文档中

小九啥也不会

06-03

1094

涉及到Python的第三方库，如requests来抓取网页内容，以及或docx来创建和编辑Word文档。

获取（复制）网页上的文字

chinagaobo的专栏

06-03

3604

获取（复制）网页上的文字安装Toggle JavaScript 2.0（插件说明：Enable or disable JavaScript without the hassle.）禁止网页JavaScript。使用爬虫获取接口时，有些网站屏蔽了右键打开检查，可以点击chrome菜单中三个点中选择更多工具中的开发者工具。将网页地址传到微信的文件助手，打开链接，点击右上角三个点，选择“更多打开方式…登录微信后，按快捷键Alt + A 截取图片，点击方字识别按钮识别。

Python爬虫入门学习——网页批量爬取文本

weixin_55154866的博客

12-04

3773

Python爬虫小白入门，文章首先介绍爬虫概念，以及爬虫的合法性问题。基于对网页的HTML编码的初步了解，介绍了两个第三方库，requests和BeautifulSoup库。进而进阶至小说文本的爬取，再深入到爬取小说并规整格式至txt...

Python实现OCR大批量识别图片文字，并将文字保存到txt文档中

R5463995的博客

08-03

950

该模型基于检测得到的文本框，继续识别文本框中的中文文字。之后对检测文本框进行角度分类。最终识别文字算法采用即卷积递归神经网络。其是DCNN和RNN的组合，专门用于识别图像中的序列式对象。与CTC loss配合使用，进行文字识别，可以直接从文本词级或行级的标注中学习，不需要详细的字符级的标注。该Module是一个通用的OCR模型，支持直接预测。项目主要功能：支持识别多种图片类型支持自定义图片路径支持大批量的图片识别支持将每一张图片的文字写入对应的txt文件中。

如何基于python把文字图片写入word文档

12-17

在Python编程中，将文字和图片写入Word文档是一项常见的任务，这在自动化报告生成、数据可视化或批量处理文档时非常有用。本篇主要讲解如何使用`python-docx`库来实现这一功能。首先，确保已经正确安装了`python-...

使用Python和Tesseract进行图片文字批量提取

jxs_hk的博客

06-03

506

使用Python和Tesseract进行图片文字批量提取

【Python实用技能】建议收藏：自动化实现网页内容转PDF并保存的方法探索（含代码，亲测可用）

同学小张的博客

03-16

3770

本文将探索自动化把URL列表所对应的网页打印成PDF文件的实现方法，内含完整代码，可直接运行使用，建议收藏备用。

将文本文件的内容或者文字保存成图片

热门推荐

【孟子E章】

08-12

1万+

调用方法： ConvertTextFileToImage(Server.MapPath("~/Log.txt"),Server.MapPath("~/Log.png")); 实现代码： void ConvertTextFileToImage(String textF

Python提取网页信息并保存

weixin_50646402的博客

06-15

1550

使用Python爬取网页内容时，获取网页源码文件后使用一系列解析方法提取我们需要的信息，对于提取到的信息怎么保存下来，本文提供常见的两种方法：保存到本地文件或MySQL数据库。

【python爬取网页信息并存储】

qq_36253366的博客

09-30

661

爬取网页信息并存储是一个常见的任务，通常涉及以下几个步骤：下面是一个简单的示例，演示如何使用Python爬取一个网页的标题并存储到文件中：详细说明发送HTTP请求：使用方法发送GET请求到指定的URL。检查请求是否成功：检查HTTP响应状态码是否为200，表示请求成功。解析网页内容：使用解析HTML内容，并提取网页的标题。如果网页没有标题，则默认设置为。存储数据到文件：使用语句打开（或创建）一个文件，并将标题写入文件中。希望这个示例能帮助你理解如何使用Python爬取网页信息并存储。如果你有

python爬取网页的方法总结,python爬取网页数据步骤

pingf123的博客

12-20

1375

大家好，小编来为大家解答以下问题，python爬取网页数据表格会超出索引，利用python爬取简单网页数据步骤，现在让我们一起来看看吧！随着网络的普及和信息爆炸式增长，我们可以通过网络来获取各种各样的数据。而Python作为一门强大而灵活的编程语言，可以帮助我们快速地从HTML网页中提取数据。本文将介绍Python爬虫的入门知识，并详细讲解如何使用Python爬虫来爬取HTML网页上的数据。1.了解HTML和网页结构2.安装和导入相关依赖库3.发送http请求获取网页内容4.解析HTML网页内容。

python爬取网页信息并保存为word文件

qq_45023811的博客

01-09

2515

4、检查文档打开时的编码设置：在使用 Microsoft Word 打开文件时，确保选择正确的编码选项。通常情况下，它会自动检测文件的编码。1、确保网页编码正确：在获取网页内容时，指定正确的编码。例如，如果网页是以 UTF-8 编码，可以在请求时指定编码。2、BeautifulSoup 解析时指定编码：在使用 BeautifulSoup 解析页面时，指定正确的编码。3、使用正确的编码保存文件：确保在保存 Word 文档时使用正确的编码。这也是最常见的解决中文乱码的方式之一，请大家务必记住！

使用BeautifulSoup和Python从网页中提取文本保存到文本文件中并避免UnicodeDecodeError

llrraa2010的专栏

12-04

814

UnicodeDecodeError

使用Python实现读取文件夹中的图片，将水印图片随机打在图片上，打上水印后的图片保存到同一文件夹，并水印位置保存为Yolo格式的txt文件每一个图片的txt单独保存，所有图片的txt文件保存在同一个文件中的示例代码

07-15

以下是一个示例代码，用于使用 Python 实现读取文件夹中的图片，将水印图片随机打在图片上，并保存打上水印后的图片到同一文件夹，同时将水印位置保存为 YOLO 格式的 txt 文件，每个图片的 txt 文件单独保存，所有图片的 txt 文件保存在同一个文件中： ```python import cv2 import random import os def add_watermark(image, watermark_text): # 选择字体、字号、字体厚度等参数 font = cv2.FONT_HERSHEY_SIMPLEX font_scale = 1 font_thickness = 2 # 获取文字的大小 text_size, _ = cv2.getTextSize(watermark_text, font, font_scale, font_thickness) # 随机生成水印的位置 x = random.randint(0, image.shape[1] - text_size[0] - 10) y = random.randint(text_size[1] + 10, image.shape[0] - 10) # 在图片上添加水印 cv2.putText(image, watermark_text, (x, y), font, font_scale, (0, 0, 255), font_thickness) return (x, y) def save_yolo_format_txt(image_path, watermark_position): # 获取图片文件名（不包含路径和扩展名） image_name = os.path.splitext(os.path.basename(image_path))[0] # YOLO 格式的水印位置 x_center = watermark_position[0] + watermark_position[2] / 2 y_center = watermark_position[1] + watermark_position[3] / 2 width = watermark_position[2] height = watermark_position[3] # 保存水印位置到 YOLO 格式的文本文件 save_txt_path = f'{image_name}.txt' with open(save_txt_path, 'w') as f: f.write(f'0 {x_center} {y_center} {width} {height}') # 图片文件夹路径 folder_path = 'images_folder' # 水印图片路径 watermark_path = 'watermark.png' # 读取水印图片 watermark_image = cv2.imread(watermark_path) # 遍历文件夹中的图片 for filename in os.listdir(folder_path): if filename.endswith('.jpg') or filename.endswith('.png'): # 图片路径 image_path = os.path.join(folder_path, filename) # 读取图片 image = cv2.imread(image_path) # 添加水印并保存水印位置 watermark_position = add_watermark(image, watermark_image) # 保存带有水印的图片 save_image_path = os.path.join(folder_path, f'watermarked_{filename}') cv2.imwrite(save_image_path, image) # 保存水印位置到 YOLO 格式的文本文件 save_yolo_format_txt(image_path, watermark_position) ``` 请确保您将代码中的 `images_folder` 替换为包含要处理图片的文件夹的路径，并将 `watermark.png` 替换为您的水印图片的路径。代码将遍历文件夹中的所有图片，并将水印添加到每张图片上，同时保存带有水印的图片和水印位置的 YOLO 格式的 txt 文件。每张图片的 txt 文件将与对应的图片文件同名，并保存在同一文件夹中。