Python采集某网站文档，并保存word格式

最新推荐文章于 2024-04-24 22:05:32 发布

轻松学Python

最新推荐文章于 2024-04-24 22:05:32 发布

阅读量1.7k

点赞数 1

分类专栏： python 文章标签： python word 开发语言

本文链接：https://blog.csdn.net/ooowwq/article/details/131643229

版权

哈喽兄弟们

我们平常需要下载文档的时候，是不是发现，要么不能下载，要么不能复制，就能难受。

常见的文档网站很多，但是这里就不一一说名字了，emmm

那么我们今天来分享一下，如何用Python将这些不给下载的文档给批量下载下来。

你需要准备

开发环境

python 3.8
pycharm

模块使用

两个需要安装的第三方模块，安装命令也写出来了。

requests --> pip install requests
re
base64
docx --> pip install python-docx

本文实现思路

一、数据来源分析

二、代码实现步骤

通过文字识别, 把图片里面文字识别出来, 保存文档里面就可以了

会使用百度云API接口:
1. 注册登陆百度云API
2. 选择文字识别, 创建应用, 领取免费资源, 点击技术文档
3. 先获取token值
4. API调用的文档代码

代码展示

文字识别

doc = Document()
 
 
def Content(content):
    url = "https://a***.com/oauth/2.0/token?grant

关注

专栏目录