绕过反爬虫：用Python高效爬取百度文库的秘籍

独角兽哆啦A梦

于 2024-07-24 17:16:09 发布

阅读量407

点赞数 11

文章标签：爬虫 python 百度文库计算机程序员代码教程

本文链接：https://blog.csdn.net/R5463995/article/details/140667900

版权

简介

百度文库是百度公司提供的一个文档在线分享平台。用户可以在该平台上发布并分享自己的文档，也可以在平台上查找和下载其他用户分享的文档。本文将介绍如何使用Python实现爬取百度文库的功能。

要使用Python爬取百度文库的内容，可以按照以下步骤进行操作：
如果有需要Python籽料的宝子们可以直接戳：2024年最新python教程全套，学完即可进大厂！（附全套视频下载） (qq.com)

分析网页结构：
- 首先需要了解百度文库的网页结构和数据加载方式。很多内容是通过异步加载的，直接访问网页源代码可能看不到完整的内容。
设置请求头：
- 为了模拟浏览器访问，需要设置合适的请求头。可以使用不同的User-Agent来尝试获取内容。例如，伪装成Baiduspider或Googlebot。
获取文档信息：
- 通过分析网页源代码，可以找到一些关键参数，如docId、docType、title等。这些参数对于后续获取文档内容至关重要。
构造请求URL：
- 根据分析结果，构造用于获取文档内容的请求URL。例如，使用https://wenku.baidu.com/api/doc/getdocinfo接口获取文档信息，然后构造用于获取文本内容的URL。
发送请求并获取数据：
- 使用requests库发送请求，获取文档内容。可能需要处理JSON格式的数据，并提取所需的文本或图片信息。
处理和保存数据：
- 对获取到的数据进行处理，例如去除无关字符、格式化文本等。然后将处理后的数据保存到文件中，如TXT、DOCX等格式。
处理图片和PDF内容：
- 对于PPT和PDF等格式的文档，可能需要使用Selenium等工具进行动态爬取。通过模拟浏览器操作获取页面中的图片和PDF内容。

编写爬虫代码：

将上述步骤整合到Python脚本中，编写完整的爬虫程序。以下是一个简单的示例代码，展示了如何获取百度文库的文本内容：

import os
import re
import json
import requests

class BaiduWk:
    def __init__(self):
        self.list_info = []
        self.session = requests.session()
        self.headers = {
            'User-Agent': 'Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.87 Mobile Safari/537.36'
        }

    def get_html(self, start_url):
        response = self.session.get(start_url, headers=self.headers)
        response.encoding = response.apparent_encoding
        return response.text

    def get_img(self, start_url):
        print('开始尝试解析百度文库图片...')
        r = self.session.get(start_url)
        r.encoding = r.apparent_encoding
        title = re.findall("'title': '(.*?)'", r.text)[0]
        docId = re.findall("'docId': '(.*?)'", r.text)[0]
        totalPageNum = re.findall("'totalPageNum': '(.*?)'", r.text)[0]
        totalPageNum = int(totalPageNum) + 1
        return totalPageNum, title, docId

    def download_img(self, totalPageNum, title, docId):
        for pn in range(1, totalPageNum):
            params = {'doc_id': docId, 'pn': pn, 'rn': 1, 'type': 'ppt'}
            api_url = 'https://wenku.baidu.com/browse/getrequest'
            r = self.session.get(api_url, params=params, headers=self.headers)
            src = r.json()[0].get('zoom')
            os.makedirs(title, exist_ok=True)
            path = title + '/' + str(pn) + '.jpg'
            urlretrieve(src, path)
            print(f'正在提取第{pn}页，请稍等...')

    def run_word(self):
        print('开始尝试解析百度文库页面...')
        start_url = input('输入百度文库中的连接：')
        print('running...')
        start_url = re.sub('wenku', 'wk', start_url)
        html = self.get_html(start_url)
        param, ranges, title = self.parse_html(html)
        print(f'当前文章：{title}\n')
        path = '百度文库/' + title + '.doc'
        response = self.words_data(param, ranges)
        self.get_words(response)
        self.save_info(title, path)
        self.set_word(path)
        print('done!!!')
        print('程序执行完毕！')

    def run_img(self):
        print('开始尝试解析百度文库图片信息...')
        start_url = input('输入百度文库中的连接：')
        print('running...')
        totalPageNum, title, docId = self.get_img(start_url)
        self.download_img(totalPageNum, title, docId)
        print('done!!!')
        print('程序执行完毕！')

if __name__ == '__main__':
    wk = BaiduWk()
    wk.run_word()
    # wk.run_img()

学好 Python 不论是就业还是做副业赚钱都不错，但要学会 Python 还是要有一个学习规划。最后给大家分享一份全套的 Python 学习资料，给那些想学习 Python 的小伙伴们一点帮助！

👉Python所有方向的学习路线👈

Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。（全套教程文末领取）

👉Python学习视频600合集👈

观看零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

温馨提示：篇幅有限，已打包文件夹，获取方式在：文末

👉Python70个实战练手案例&源码👈

光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

👉Python大厂面试资料👈

我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。

👉Python副业兼职路线&方法👈

学好 Python 不论是就业还是做副业赚钱都不错，但要学会兼职接单还是要有一个学习规划。

👉 这份完整版的Python全套学习资料已经上传，朋友们如果需要可以扫描下方CSDN官方认证二维码或者点击链接免费领取【保证100%免费】

独角兽哆啦A梦

关注

11
点赞
踩
13

收藏

觉得还不错? 一键收藏
3
评论
绕过反爬虫：用Python高效爬取百度文库的秘籍

百度文库是百度公司提供的一个文档在线分享平台。用户可以在该平台上发布并分享自己的文档，也可以在平台上查找和下载其他用户分享的文档。本文将介绍如何使用Python实现爬取百度文库的功能。要使用Python爬取百度文库的内容，可以按照以下步骤进行操作：2024年最新python教程全套，学完即可进大厂！（附全套视频下载） (qq.com)分析网页结构首先需要了解百度文库的网页结构和数据加载方式。很多内容是通过异步加载的，直接访问网页源代码可能看不到完整的内容。设置请求头。
复制链接

扫一扫