Python采集某网站文档,并保存word格式

哈喽兄弟们

我们平常需要下载文档的时候,是不是发现,要么不能下载,要么不能复制,就能难受。

常见的文档网站很多,但是这里就不一一说名字了,emmm

那么我们今天来分享一下,如何用Python将这些不给下载的文档给批量下载下来。

你需要准备

开发环境

python 3.8
pycharm

模块使用

两个需要安装的第三方模块,安装命令也写出来了。

requests --> pip install requests
re
base64
docx --> pip install python-docx

本文实现思路

一、数据来源分析

  1. 明确需求
    明确采集网址以及数据内容是什么?
    网址: https://www.***.com/p-3282300896.html
    数据: 文档内容
  2. 抓包分析, 我们需要数据内容是可以请求那个链接能够得到
    文档形式: 图片样式
    通过浏览器自带工具: 开发者工具抓包
    打开开发者工具: F12 / 右键点击检查选择network
    刷新网页
    开发者工具搜索: docinpic
    文档图片数据
    链接: http://221.122.117.73/docinpic.jsp
    sid: P1ekRarOT5ID*deCCfQPHapgA9Z5X3NNn0xfBxPIDApUnSY9yIVtfuxey1BsO1BG <获取>
    file: 文档ID <可以自己获取>
    width: 图片分辨率
    pageno: 页码 <可以用for循环>

二、代码实现步骤

  1. 发送请求, 模拟浏览器对于 文档页面url地址 发送请求
    请求链接: https://www.***.com/p-3282300896.html
  2. 获取数据, 获取服务器返回响应数据
  3. 解析数据, 提取我们需要的内容:
    sid参数 / 文档页数 / 文档名称
    构建文档图片链接
  4. 保存数据, 把文档图片内容保存下来

通过文字识别, 把图片里面文字识别出来, 保存文档里面就可以了

会使用百度云API接口:
1. 注册登陆百度云API
2. 选择文字识别, 创建应用, 领取免费资源, 点击技术文档
3. 先获取token值
4. API调用的文档代码

代码展示

文字识别

doc = Document()
 
 
def Content(content):
    url = "https://a***.com/oauth/2.0/token?grant
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值