前言
今天来点不一样的
用Python实现某du文库vip内容下载, 保存到word文档
前期准备
环境使用
- python 3.8
- pycharm
模块使用
- requests >>> 数据请求模块 pip install requests
- docx >>> 文档保存 pip install python-docx
- re 内置模块 不需要安装
- ctrl + R 爬虫: 首先你得看得数据, 才能想办法获取
代码实现步骤
-
发送请求, 模拟浏览器对于url地址发送请求图片数据包:
-
获取数据, 获取服务器返回响应数据
开发者工具: response -
解析数据, 提取图片链接地址
-
保存数据, 把图片内容保存到本地文件夹
-
做文字识别, 识别文字内容
-
把文字数据信息, 保存word文档里面
导入数据请求模块 import requests
导入格式化输出模块 from pprint import pprint
导入base64 import base64
导入os模块 import os
导入文档模块 from docx import Document
导入正则 import re
导入 json import json
1. 发送请求, 模拟浏览器对于url地址发送请求
- 长链接, 可以分段写
- 问号前面: url链接
- 问号后面: 请求参数/查询参数
# 确定请求链接
url = 'https://*****.com/gsearch/rec/pcviewdocrec'
# 请求参数
data = {
'docId': docId,
'query': name,
'recPositions': ''
}
# 请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/101.0.0.0 Safari/537.36'
}
#发送请求
response = requests.get(url=url, params=data, headers=headers)
# <Response [200]> 响应对象, 200 表示请求成功