教你用Python一分钟破Baidu文库付费限制，白嫖Baidu文库全格式内容_python爬百度文库付费ppt文件代码(1)-CSDN博客

本文链接：https://blog.csdn.net/2401_84572413/article/details/138514958

一、Python所有方向的学习路线

Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照下面的知识点去找对应的学习资源，保证自己学得较为全面。

二、Python必备开发工具

工具都帮大家整理好了，安装就可直接上手！

三、最新Python学习笔记

当我学到一定基础，有自己的理解能力的时候，会去阅读一些前辈整理的书籍或者手写的笔记资料，这些笔记详细记载了他们对一些技术点的理解，这些理解是比较独到，可以学到不一样的思路。

四、Python视频合集

观看全面零基础学习视频，看视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。

五、实战案例

纸上得来终觉浅，要学会跟着视频一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

六、面试宝典

在这里插入图片描述

简历模板

网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。

需要这份系统化学习资料的朋友，可以戳这里获取

一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！

button = driver.find_element_by_xpath(“//*[@id=‘html-reader-go-more’]/div[2]/div[1]/span”)
button.click()
driver.execute_script(“arguments[0].click();”, button)


整个操作是通过JS来进行的，大家可以把这个记住，以后需要点击的时候直接用就可以。


然后就是输入页面实现换页，这个其实涉及的比较多，细分的话，步骤分为获取总页数，依次输入页面并点击。

import re
#寻找页面
source = re.compile(r’/(.*?)')
number = int(source.findall(driver.page_source)[0])


## 输入页面并点击

driver.find_element_by_class_name(“page-input”).clear()
driver.find_element_by_class_name(“page-input”).send_keys(‘2’)
driver.find_element_by_class_name(“page-input”).send_keys(Keys.ENTER)


如果小伙伴成功实现了上面的操作，其实大体的爬取工作已经差不多了，接下来就是保存我们的PPT和PDF了。


因为爬取PDF和PPT的时候，我们是爬取的图片的源地址，那么我们要获得这张图片并保存下来就必须对这个地址发起请求，然后将返回头以二进制保存下来。

for m in range(3):
pic = requests.get(z[m]).content
#方法一
#file = open(f’./照片/{m+1}.jpg’,‘wb’)
#file.write(pic)
#file.close()
#方法二
with open(f’./照片/{m+1}.jpg’,‘wb’) as f:
f.write(pic)
f.close()


在这里，提醒大家一下一定要按照对图片用正确顺序进行命名，因为后面保存为PDF的时候，需要排序。


在py文件的目录下，大家就可以看见保存下来的图片了。最后一步，将图片保存为PDF。

from PIL import Image
import os
folderPath = “F:/TEST”
filename = “test”
files = os.listdir(folderPath)
jpgFiles = []
sources = []
for file in files:
if ‘jpg’ in file:
jpgFiles.append(file)
tep = []
for i in jpgFiles:
ex = i.split(‘.’)
tep.append(int(ex[0]))
tep.sort()
jpgFiles=[folderPath +‘/’+ str(i) + ‘.jpg’ for i in tep]
output = Image.open(jpgFiles[0])
jpgFiles.pop(0)
for file in jpgFiles:
img = Image.open(file)
img = img.convert(“P”)
sources.append(img)
output.save(f"./{filename}.pdf",“PDF”,save_all=True,append_images=sources)


最终的结果就是生成了咱们的PDF文件。


上述的操作看起来很多，很麻烦，其实并不是的。因为大部分的操作都是固定的，大家只需要记熟就可以了。


**完整代码：**

import requests
from selenium import webdriver
from lxml import etree
import re
from selenium.webdriver.common.keys import Keys
import time
from PIL import Image
import os
from bs4 import BeautifulSoup
import bs4
from docx import Document
import sys

def getHTMLText(url):
header = {‘User-agent’: ‘Googlebot’}
try:
r = requests.get(url, headers = header, timeout = 30)
r.raise_for_status()
r.encoding = ‘gbk’
#r.encoding = r.apparent_encoding
return r.text
except:
return ‘’
def parse_type(content):
return re.findall(r"docType.*?:.*?‘(.*?)’,", content)[0]
def parse_txt(html):
plist = []
soup = BeautifulSoup(html, “html.parser”)
plist.append(soup.title.string)
for div in soup.find_all(‘div’, attrs={“class”: “bd doc-reader”}):
plist.extend(div.get_text().split(‘\n’))
plist = [c.replace(’ ‘, ‘’) for c in plist]
plist = [c.replace(’\x0c’, ‘’) for c in plist]
return plist
def print_docx(plist, filename):
file = open(filename + ‘.txt’, ‘w’,encoding=‘utf-8’)
for str in plist:
file.write(str)
file.write(‘\n’)
file.close()
with open(filename + ‘.txt’, encoding=‘utf-8’) as f:
docu = Document()
docu.add_paragraph(f.read())
docu.save(filename + ‘.docx’)
def parse_doc(url, folderPath):
driver = webdriver.Chrome(r’./src/chromedriver.exe’)
driver.get(url)

#找到‘继续阅读’按钮定位至还剩35页未读，继续阅读
button = driver.find_element_by_xpath(“//*[@id=‘html-reader-go-more’]/div[2]/div[1]/span”)

#按下按钮
driver.execute_script(“arguments[0].click();”, button)
time.sleep(1)
source = re.compile(r’/(.*?)')
number = int(source.findall(driver.page_source)[0])

#获取页码数
#number = total[1]

time.sleep(1)
for i in range(2,number):
driver.find_element_by_class_name(“page-input”).clear()
driver.find_element_by_class_name(“page-input”).send_keys(f’{i}')
driver.find_element_by_class_name(“page-input”).send_keys(Keys.ENTER)
time.sleep(1)
html=etree.HTML(driver.page_source)

#找到picture容器
links=html.xpath(“//div[@class=‘reader-pic-item’]/@style”)

#找到图片对应的url
part = re.compile(r’url([)]‘)
qa=“”.join(links)
z=part.findall(qa)
if i == 2:
for m in range(3):
pic = requests.get(z[m]).content
with open(f’./照片/{m+1}.jpg’,‘wb’) as f:
f.write(pic)
f.close()
else:
pic = requests.get(z[2]).content
with open(f’./照片/{i+1}.jpg’,‘wb’) as f:
f.write(pic)
f.close()
time.sleep(1)
driver.quit()
def parse_other(url, folderPath):
driver = webdriver.Chrome(r’./src/chromedriver.exe’)
driver.get(url)

#找到‘继续阅读’按钮定位至还剩35页未读，继续阅读
button = driver.find_element_by_xpath(“//*[@id=‘html-reader-go-more’]/div[2]/div[1]/span”)

#按下按钮
driver.execute_script(“arguments[0].click();”, button)
time.sleep(1)
source = re.compile(r’/(.*?)')
number = int(source.findall(driver.page_source)[0])

#获取页码数
#number = total[1]
time.sleep(1)

#获取图片
for i in range(2,number):
driver.find_element_by_class_name(“page-input”).clear()
driver.find_element_by_class_name(“page-input”).send_keys(f’{i}')
driver.find_element_by_class_name(“page-input”).send_keys(Keys.ENTER)
time.sleep(1)
html=etree.HTML(driver.page_source)

#找到picture容器"//div[@class=‘reader-pic-item’]/@style"
z=html.xpath(‘//div[@class=“ppt-image-wrap”]/img/@src’)

#print(z)
#保存图片
if i == 2:
for m in range(3):
pic = requests.get(z[m]).content
with open(folderPath + f’/{m + 1}.jpg’,‘wb’) as f:
f.write(pic)
f.close()
else:
pic = requests.get(z[i]).content
with open(folderPath + f’/{i + 1}.jpg’,‘wb’) as f:
f.write(pic)
f.close()
time.sleep(1)
driver.quit()
def print_pdf(folderPath, filename):
files = os.listdir(folderPath)
jpgFiles = []
sources = []
for file in files:
if ‘jpg’ in file:
jpgFiles.append(file)
tep = []
for i in jpgFiles:
ex = i.split(‘.’)
tep.append(int(ex[0]))
tep.sort()
jpgFiles=[folderPath +‘/’+ str(i) + ‘.jpg’ for i in tep]
output = Image.open(jpgFiles[0])
jpgFiles.pop(0)
for file in jpgFiles:
img = Image.open(file)
img = img.convert(“P”)
sources.append(img)
output.save(f"{filename}.pdf",“PDF”,save_all=True,append_images=sources)
def main(url, istxt):
try:
ticks = time.time() # 获取时间(用于命名文件夹)
filepath = ‘./照片’ + str(ticks) # 保存爬取的图片
filename = ‘./爬取结果’ + str(ticks) # 爬取生成的文件名
if not os.path.exists(filepath): # 新建文件夹
os.mkdir(filepath)
html = getHTMLText(url) # requests库爬取
type = parse_type(html) # 获取文库文件类型：ppt, pdf, docx

#当你要爬取文档的文本时，打开下列注释
if(istxt == “1”):
type = ‘txt’
if type == ‘txt’ :
plist = parse_txt(html)
print_docx(plist, filename)
elif type == ‘doc’ or type == ‘pdf’:
parse_doc(url, filepath)
print_pdf(filepath , filename)
else:
parse_other(url, filepath)
print_pdf(filepath, filename)
print(‘1’)
except:
print(‘0’)
if name == ‘__main__’:
main(sys.argv[1],sys.argv[2])
#url = ‘https://wenku.baidu.com/view/5292b2bc0166f5335a8102d276a20029bd64638c.html?fr=search’
#istxt = “0”
#main(url,istxt)


关于破Baidu文库付费限制的代码到这里就结束了。


**朋友们如果需要学习Python或者需要更多爬虫脚本实战源代码，可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】**



![](https://img-blog.csdnimg.cn/img_convert/58f60740a6ec6d47c69fc2530d897c82.png)



### 关于学习Python的一些资料分享


学好 Python 不论是就业、副业赚钱、还是提升学习、工作效率，都是非常不错的选择，但要学会 Python 还是要有一个学习规划。最后，我整理了一份Python全套学习资料，包含视频、源码、课件，给那些想学习 Python 的小伙伴们一点帮助！



> 
> ① Python所有方向的学习路线图，清楚各个方向要学什么东西
> 
> 
> ② 100多节Python课程视频，涵盖必备基础、爬虫和数据分析
> 
> 
> ③ 100多个Python实战案例，学习不再是只会理论
> 
> 
> ④ 华为出品独家Python漫画教程，手机也能学习
> 
> 
> ⑤ 历年互联网企业Python面试真题,复习时非常方便
> 
> 
> 


![img](https://img-blog.csdnimg.cn/24da4d8ea4b84f5ba281fbefc2c99ca9.png)


#### 1、Python所有方向的学习路线


Python所有方向路线就是把Python常用的技术点做整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。


![img](https://img-blog.csdnimg.cn/img_convert/30723deff77a2f6af817fc0892158421.png)


#### 2、学习软件


工欲善其事必先利其器。学习Python常用的开发软件都在这里了，给大家节省了很多时间。


![img](https://img-blog.csdnimg.cn/img_convert/f874af3c700721cfa7b482156e7da47c.png)


#### 3、全套PDF电子书


书籍的好处就在于权威和体系健全，刚开始学习的时候你可以只看视频或者听某个人讲课，但等你学完之后，你觉得你掌握了，这时候建议还是得去看一下书籍，看权威技术书籍也是每个程序员必经之路。


![img](https://img-blog.csdnimg.cn/img_convert/68f566252304155eae9fa180b969ff5d.png)


#### 4、入门学习视频


我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了。


![img](https://img-blog.csdnimg.cn/img_convert/06e6d22e6bd1624b0689923a2e55ff81.png)


#### 5、实战案例


光学理论是没用的，要学会跟着一起敲，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。


![img](https://img-blog.csdnimg.cn/img_convert/982df5e1a2e44f99cb4d19f3f7aad16c.png)


#### 6、清华编程大佬出品《漫画看学Python》


用通俗易懂的漫画，来教你学习Python，让你更容易记住，并且不会枯燥乏味。


![img](https://img-blog.csdnimg.cn/a01b454a8abb488fa044bd4aee6d5d8c.png)


![img](https://img-blog.csdnimg.cn/0bfb953a052346dc94455becc28ab860.png)


#### 7、面试资料


我们学习Python必然是为了找到高薪的工作，下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料，并且有阿里大佬给出了权威的解答，刷完这一套面试资料相信大家都能找到满意的工作。


![img](https://img-blog.csdnimg.cn/img_convert/017aa5fae0c560e129e56957eaa86eb4.png)


![img](https://img-blog.csdnimg.cn/img_convert/ac350b25859669a72511ef8d063425eb.png)




**（1）Python所有方向的学习路线（新版）**  

这是我花了几天的时间去把Python所有方向的技术点做的整理，形成各个领域的知识点汇总，它的用处就在于，你可以按照上面的知识点去找对应的学习资源，保证自己学得较为全面。

最近我才对这些路线做了一下新的更新，知识体系更全面了。



![在这里插入图片描述](https://img-blog.csdnimg.cn/1f807758e039481fa866130abf71d796.png#pic_center)



**（2）Python学习视频**



包含了Python入门、爬虫、数据分析和web开发的学习视频，总共100多个，虽然没有那么全面，但是对于入门来说是没问题的，学完这些之后，你可以按照我上面的学习路线去网上找其他的知识资源进行进阶。

![在这里插入图片描述](https://img-blog.csdnimg.cn/d66e3ad5592f4cdcb197de0dc0438ec5.png#pic_center)



**（3）100多个练手项目**

我们在看视频学习的时候，不能光动眼动脑不动手，比较科学的学习方法是在理解之后运用它们，这时候练手项目就很适合了，只是里面的项目比较多，水平也是参差不齐，大家可以挑自己能做的项目去练练。

![在这里插入图片描述](https://img-blog.csdnimg.cn/f5aeb4050ab547cf90b1a028d1aacb1d.png#pic_center)




**网上学习资料一大堆，但如果学到的知识不成体系，遇到问题时只是浅尝辄止，不再深入研究，那么很难做到真正的技术提升。**

**[需要这份系统化学习资料的朋友，可以戳这里获取](https://bbs.csdn.net/topics/618317507)**

**一个人可以走的很快，但一群人才能走的更远！不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人，都欢迎加入我们的的圈子（技术交流、学习资源、职场吐槽、大厂内推、面试辅导），让我们一起学习成长！**