python下载百度文库，没想到竟如此简单

最新推荐文章于 2024-10-17 13:32:30 发布

旁观者lgp

最新推荐文章于 2024-10-17 13:32:30 发布

阅读量2.9k

点赞数 2

分类专栏：杂文章标签： python 百度文库

本文链接：https://blog.csdn.net/qq_45515863/article/details/109738739

版权

杂专栏收录该内容

3 篇文章 0 订阅

订阅专栏

源码

二话不说，先上代码

# -*- coding: utf-8 -*-
#项目地址：https://github.com/JackKing-defier/Baiduwenku
#@author: JackKing_defier

import requests
# from bs4 import BeautifulSoup
import bs4
import codecs

def getHTMLText(url):
    kv = {'User-agent': 'Baiduspider'}
    try:
        r = requests.get(url, headers = kv, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ''

def findPList(html):
    plist = []
    soup = bs4.BeautifulSoup(html, "html.parser")
    plist.append(soup.title.string)
    for div in soup.find_all('div', attrs={"class": "bd doc-reader"}):
        plist.extend(div.get_text().split('\n'))

    plist = [c.replace(' ', '') for c in plist]
    plist = [c.replace('\x0c', '') for c in plist]
    return plist

def printPList(plist, path = 'baiduwenku.txt'):
    file = codecs.open(path, 'w','utf-8')
    for str in plist:
        file.write(str)
        file.write('\n')
    file.close()

def main():
    url = 'https://wenku.baidu.com/view/7da5a13cfe00bed5b9f3f90f76c66137ee064ff5.html?re=view'
    html = getHTMLText(url)
    plist = findPList(html)
    printPList(plist)
main()