前言
本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。
作者:向柯玮,周航 程序猿声
PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取
python免费学习资料点击即可领取
考虑到现在大部分小伙伴使用Python主要因为爬虫,那么为了更好地帮助大家巩固爬虫知识,加深对爬虫的理解,我们小组选择了爬取百度文库作为我们的大作业。
TXT,DOCX爬取与保存
在爬取任何东西之前,我们都要先确认需要爬取的数据是不是异步加载的。如果是异步加载的直接爬取网页是爬不到的。
要知道是不是异步加载其实很简单,就用request对网页发起请求,看看response是什么就可以了。
url = 'https://wenku.baidu.com/view/4e29e5a730126edb6f1aff00bed5b9f3f90f72e7.html?rec_flag=default'
header = {
'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'}
res = requests.get(url , headers = header)
res.text
很明显,返回的东西,并不是我们所需要的内容。根据常理来说,我们就可以认为该网页是异步加载的。
但是,从常识来讲,如果网页的内容是异步加载的,那么直接通过百度搜索,是搜索不到网页内部的内容的,但是很显然,我们每次通过百度搜索都是可以直接找到文库中的文本内容的。如下:
那么这就有意思了,明明直接发起请求是获取不到网页内容的,但是为什么通过百度搜索就可以找到呢?
关键肯定在于百度搜索上面。这个时候通过查阅资料,我们了解到,最主要的问题出在我们的headers。
在爬取网页时,headers通常是作为身份证,让网页不看出我们是爬虫。如果不加headers,网页直接就会看出我们是爬虫,就会拒绝访问。
再深入了解一下headers的识别机理,我们发现了叫做Robot协议的东西。
它规定了什么样的headers可以访问网页内部内容,除了指定headers之外的headers,都是无法请求页面内容的。(更详细的Robot协议介绍以附件形式给出)
比如说百度文库的Robot协议就是下面这样的。
User-agent: Baiduspider
Disallow: /w?
Disallow: /search?
Disallow: /submit
Disallow: /upload
Disallow: /cashier/
而我们需要爬取的内容url格式为
https://wenku.baidu.com/view/?.html
这代表Baiduspider应该可以爬取文库内容。大致猜测这是因为百度搜索时需要根据文本内容匹配搜索选项,所以放行。
因此我们尝试伪装User-agent为Baiduspider。
url = 'https://wenku.baidu.com/view/4e29e5a730126edb6f1aff00bed5b9f3f90f72e7.html?rec_flag=default'
header = {'User-agent': 'Googlebot'}
res = requests.get(url , headers = header)
res.text
果然不出所料,我们成功地获取到了目标内容。
既然已经成功获取到了网页的正确源代码,那么下一步就是去解析网页获取内容。
解析网页源代码的库有很多,这里我们使用BeautifulSoup。
plist = []
soup = BeautifulSoup(r, "html.parser")
plist.append(soup.title.string)
for div in soup.find_all('div', attrs={"class": "bd doc-reader"}):
plist.extend(div.get_text().split('n'))
plist = [c.replace(' ', '') for c in plist]
plist = [c.replace('x0c', '') for c in plist]
plist
整个解析是非常容易的,都是很标准的操作。在这里就不多加叙述了。最终的效果如下。

本文介绍了如何使用Python爬取百度文库的TXT,DOCX,PPT和PDF内容。通过伪装User-Agent规避限制,结合BeautifulSoup解析网页,使用Selenium自动化工具处理异步加载的数据。最终,内容被保存为txt或docx文件,而PPT和PDF则通过抓取图片并合成PDF文件实现。"
134627016,1358276,Python继承:子类继承父类变量与方法,"['Python', '开发语言', '面向对象']
最低0.47元/天 解锁文章

3918

被折叠的 条评论
为什么被折叠?



