python下载百度文库,没想到竟如此简单

源码

二话不说,先上代码

# -*- coding: utf-8 -*-
#项目地址:https://github.com/JackKing-defier/Baiduwenku
#@author: JackKing_defier

import requests
# from bs4 import BeautifulSoup
import bs4
import codecs

def getHTMLText(url):
    kv = {'User-agent': 'Baiduspider'}
    try:
        r = requests.get(url, headers = kv, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ''

def findPList(html):
    plist = []
    soup = bs4.BeautifulSoup(html, "html.parser")
    plist.append(soup.title.string)
    for div in soup.find_all('div', attrs={"class": "bd doc-reader"}):
        plist.extend(div.get_text().split('\n'))

    plist = [c.replace(' ', '') for c in plist]
    plist = [c.replace('\x0c', '') for c in plist]
    return plist

def printPList(plist, path = 'baiduwenku.txt'):
    file = codecs.open(path, 'w','utf-8')
    for str in plist:
        file.write(str)
        file.write('\n')
    file.close()

def main():
    url = 'https://wenku.baidu.com/view/7da5a13cfe00bed5b9f3f90f76c66137ee064ff5.html?re=view'
    html = getHTMLText(url)
    plist = findPList(html)
    printPList(plist)
main()

介绍

总有人想下载百度文库中的文件,却又不想去开所谓的vip,又不想用卷下载,今天我使用上面源码将其运用到了公众号上,大家便可以轻松下载百度文库,管他需不需要vip,管他需不需要下载卷,管他是不是vip专享,一律统统可以轻松下载,方法及其简单,只需两步操作:

1、扫描下方二维码进入公众号。
在这里插入图片描述

2、回复想要下载的百度文库链接,等待3秒钟,便可获得下载链接,点击下载链接即可获得文档内容。

在这里插入图片描述

看到这里是不是爽歪歪

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

旁观者lgp

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值