Python实现某du内容下载, 保存到word文档

最新推荐文章于 2023-02-13 00:07:36 发布

「已注销」

最新推荐文章于 2023-02-13 00:07:36 发布

阅读量1.9k

点赞数 6

分类专栏： pytho基础 python案例文章标签： python word 开发语言

本文链接：https://blog.csdn.net/aliYz/article/details/128343553

版权

前言

今天来点不一样的

用Python实现某du文库vip内容下载, 保存到word文档

前期准备

环境使用

python 3.8
pycharm

模块使用

requests >>> 数据请求模块 pip install requests
docx >>> 文档保存 pip install python-docx
re 内置模块不需要安装
ctrl + R 爬虫: 首先你得看得数据, 才能想办法获取

代码实现步骤

发送请求, 模拟浏览器对于url地址发送请求图片数据包:
获取数据, 获取服务器返回响应数据
开发者工具: response
解析数据, 提取图片链接地址
保存数据, 把图片内容保存到本地文件夹
做文字识别, 识别文字内容
把文字数据信息, 保存word文档里面

导入数据请求模块 import requests
导入格式化输出模块 from pprint import pprint
导入base64 import base64
导入os模块 import os
导入文档模块 from docx import Document
导入正则 import re
导入 json import json

1. 发送请求, 模拟浏览器对于url地址发送请求

长链接, 可以分段写
问号前面: url链接
问号后面: 请求参数/查询参数

源码.点击领取即可

# 确定请求链接
url = 'https://*****.com/gsearch/rec/pcviewdocrec'
    # 请求参数
    data = {
   
        'docId': docId,
        'query': name,
        'recPositions': ''
    }
    # 请求头
    headers = {
   
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
    }
    #发送请求
    response = requests.get(url=url, params=data, headers=headers)
    # <Response [200]> 响应对象, 200 表示请求成功