网络爬虫实战 | 上传以及下载处理后的文件

编程日记✧

已于 2024-02-27 10:44:31 修改

阅读量1.3k

点赞数 19

文章标签：爬虫 python 学习人工智能笔记

于 2024-02-15 20:02:45 首次发布

本文链接：https://blog.csdn.net/lironglu_/article/details/135866378

版权

详细代码在文尾

以实现爬虫一个简单的（SimFIR (doctrp.top)）网址为例，需要遵循几个步骤：

1. 分析网页结构

首先，需要分析该网页的结构，了解图片是如何存储和组织的。这通常涉及查看网页的HTML源代码，可能还包括CSS和JavaScript文件。
检查图片URL的模式，看看是否有规律可循，这将有助于编写爬虫时定位和下载图片。

2. 编写爬虫代码

使用Python中的库，如requests来访问网页，BeautifulSoup来解析HTML。
编写代码以遍历网页，定位图片链接，并将它们下载到您的本地存储。

3. 实现畸变矫正

选择适合的畸变矫正算法。需要使用像OpenCV这样的图像处理库。
编写代码以批量读取下载的图片，应用畸变矫正算法，并保存矫正后的图片。

4. 自动化和优化

使整个过程自动化，以便只需运行一个脚本即可完成从爬取到矫正的整个流程。
确保您的代码在处理大量数据时效率高并且稳定。

实战开始

观察到红色框内"点击上传"处上传文件，然后点击按钮"Submit"实现文件上传；转换后的图片会显示在绿色框内，可点击"Download"按钮下载。

1）找到正确的URL

通常这些信息可以从网络请求中找到，使用浏览器的开发者工具观察网络请求。在浏览器中打开开发者工具（通常可以通过按F12或右键检查来打开），然后尝试正常上传一个文件。在"网络"（Network）选项卡中，可以监控到所有由网页发出的HTTP请求。找到文件上传时的请求，可以看到请求的URL、方法、请求头和请求体等信息。这里的URL就是上传接口的URL。

最低0.47元/天解锁文章

编程日记✧

关注

19
点赞
踩
28

收藏

觉得还不错? 一键收藏
打赏
1
评论
网络爬虫实战 | 上传以及下载处理后的文件

这段代码的目的是将本地存储的图像发送到一个服务器端点，以便进行处理，并将处理后的图像以Base64编码的形式接收回来。整个流程分为以下几个步骤：初始化和配置: 导入必要的库，配置服务器URL，禁用SSL证书警告，定义本地图像路径和服务器的处理端点。读取和编码图像: 以二进制模式打开本地图像文件，读取内容，并将其编码为Base64字符串，以便可以通过JSON进行网络传输。发送请求: 使用requests库创建一个会话，并通过POST请求将编码的图像数据发送到服务器的处理端点。在请求中忽略SSL证
复制链接

扫一扫