python爬取百度网盘文库pdf格式_10分钟教你用Python爬取Baidu文库全格式内容

weixin_39878549

于 2020-12-13 10:24:38 发布

阅读量2.2k

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39878549/article/details/111418314

版权

本文介绍了如何使用Python爬取百度文库的TXT、DOCX、PPT和PDF格式内容。通过伪装User-Agent，利用requests和BeautifulSoup解析网页内容，使用selenium自动化工具处理异步加载数据。对于PDF和PPT，通过爬取图片并保存，最后利用PIL将图片合成PDF文件。完整代码包括获取HTML内容、解析网页、保存文本和图片、以及生成PDF的步骤。

摘要由CSDN通过智能技术生成

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。

作者：向柯玮，周航程序猿声

PS：如有需要Python学习资料的小伙伴可以加点击下方链接自行获取

考虑到现在大部分小伙伴使用Python主要因为爬虫，那么为了更好地帮助大家巩固爬虫知识，加深对爬虫的理解，我们小组选择了爬取百度文库作为我们的大作业。

TXT,DOCX爬取与保存

在爬取任何东西之前，我们都要先确认需要爬取的数据是不是异步加载的。如果是异步加载的直接爬取网页是爬不到的。

要知道是不是异步加载其实很简单，就用request对网页发起请求，看看response是什么就可以了。

url = 'https://wenku.baidu.com/view/4e29e5a730126edb6f1aff00bed5b9f3f90f72e7.html?rec_flag=default'

header = {'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}

res = requests.get(url , headers = header)

res.text

很明显，返回的东西，并不是我们所需要的内容。根据常理来说，我们就可以认为该网页是异步加载的。

但是，从常识来讲，如果网页的内容是异步加载的，那么直接通过百度搜索，是搜索不到网页内部的内容的，但是很显然，我们每次通过百度搜索都是可以直接找到文库中的文本内容的。如下:

那么这就有意思了，明明直接发起请求是获取不到网页内容的，但是为什么通过百度搜索就可以找到呢？

关键肯定在于百度搜索上面。这个时候通过查阅资料，我们了解到，最主要的问题出在我们的headers。

在爬取网页时，headers通常是作为身份证，让网页不看出我们是爬虫。如果不加headers，网页直接就会看出我们是爬虫，就会拒绝访问。

再深入了解一下headers的识别机理，我们发现了叫做Robot协议的东西。

它规定了什么样的headers可以访问网页内部内容，除了指定headers之外的headers，都是无法请求页面内容的。(更详细的Robot协议介绍以附件形式给出)

比如说百度文库的Robot协议就是下面这样的。

User-agent: Baiduspider

Disallow: /w?

Disallow: /search?

Disallow: /submit

Disallow: /upload

Disallow: /cashier/

而我们需要爬取的内容url格式为

https://wenku.baidu.com/view/?.html

这代表Baiduspider应该可以爬取文库内容。大致猜测这是因为百度搜索时需要根据文本内容匹配搜索选项，所以放行。

因此我们尝试伪装User-agent为Baiduspider。

url = 'https://wenku.baidu.com/view/4e29e5a730126edb6f1aff00bed5b9f3f90f72e7.html?rec_flag=default'

header = {'User-agent': 'Googlebot'}

res = requests.get(url , headers = header)

res.text

果然不出所料，我们成功地获取到了目标内容。

既然已经成功获取到了网页的正确源代码，那么下一步就是去解析网页获取内容。

解析网页源代码的库有很多，这里我们使用BeautifulSoup。

plist = []

soup = BeautifulSoup(r, "html.parser")

plist.append(soup.title.string)

for div in soup.find_all('div', attrs={"class": "bd doc-reader"}):

plist.extend(div.get_text().split('\n'))

plist = [c.replace(' ', '') for c in plist]

plist = [c.replace('\x0c', '') for c in plist]

plist

整个解析是非常容易的，都是很标准的操作。在这里就不多加叙述了。最终的效果如下。

当然爬取到东西了只是万里长征的第一步，就这样是肯定不行的，我们还需要将爬取的内容保存起来，通常是保存为txt文件。

file = open('test.txt', 'w',encoding='utf-8')

for str in plist:

file.write(str)

file.write('\n')

file.close()

最低0.47元/天解锁文章

weixin_39878549

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。