10分钟教你用Python爬取Baidu文库全格式内容(1)，2024最新Python笔经

最新推荐文章于 2024-04-18 01:05:25 发布

2401_84141410

最新推荐文章于 2024-04-18 01:05:25 发布

阅读量996

点赞数 10

分类专栏： 2024年程序员学习文章标签： python 百度开发语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/2401_84141410/article/details/137547478

版权

有了之前的经验教训，在爬取的时候我们首先就尝试了使用爬取TXT,DOCX的方法，尝试是否可以爬到内容。

url = ‘https://wenku.baidu.com/view/a4ac1b57dd88d0d232d46a0f.html?fr=search’

header = {‘User-agent’: ‘Googlebot’}

res = requests.get(url , headers = header)

res.text

很可惜的是，我们并没有访问到。原因仔细想想也很简单，在百度搜索的时候，直接搜索是搜不到PPT或者PDF的内容的。

在这里插入图片描述

那么很显然，PPT和PDF是通过异步的方法进行内容加载的。

对待异步加载的数据，我们通常采取的策略有两种，第一个就是直接找到发起异步请求的接口，自己构造请求头，发起请求，第二个就是通过Selenium这样的自动化测试工具去爬取。

百度文库的接口太难找了，请求头的构造也很麻烦，找了很久也没有很满意。所以在本次爬取中，我们使用的是第二种方法，使用Selenium这样的自动化测试工具。

在这里不多加介绍WebDriver，有兴趣的小伙伴可以自己查一下，我们直接上手使用。

这里我们需要下载ChromeDriver这个插件，当然这里是默认大家使用的是Chrome浏览器，如果是其他的浏览器，firefox，safari等等，直接去网上找到相应Driver就可以了。

这里给出ChromeDriver的下载地址：

http://npm.taobao.org/mirrors/chromedriver/

大家一定要下载和自己Chrome浏览器版本一致的ChromeDriver，不然程序是运行不起来的。

在这里插入图片描述

我们先不急着马上开始爬取，我们先来尝试使用一下Selenium调用ChromeDriver。

import requests

from selenium import webdriver

url = ‘https://wenku.baidu.com/view/5292b2bc0166f5335a8102d276a20029bd64638c.html?fr=search’

driver = webdriver.Chrome(r’F:\driver\chromedriver.exe’)

driver.get(url)

怎么样，是不是浏览器自动打开了?现在我们尝试输出这个driver，就可以看见，网页的正确源代码已经在里面了。

现在我们仔细研究一下源代码就可以看到，我们需要的内容在下面这个位置。

在这里插入图片描述

现在正确的源代码也有了，内容的位置也知道了，直接解析，爬取，完事就好了。

想得美，经过这样的爬取之后，对内容进行解析，让我们看看究竟爬到没有。

from lxml import etree

import re

html=etree.HTML(driver.page_source)

links=html.xpath(“//div[@class=‘reader-pic-item’]/@style”)

part = re.compile(r’url([)]')

qa=“”.join(links)

z=part.findall(qa)

在这里插入图片描述

我们可以知道，其实我们只爬到3张PDF，其他的都没有爬到。这是为什么呢？

这是百度文库为了防止大家去爬，专门设置的一个小机关。

返回百度文库，我们仔细看看源代码，其实我们可以发现，随着页面的变化，源代码是不断改变的，每次都只有3张图片的url。并且这个页码数也有一定的规律，如果在第二

最低0.47元/天解锁文章

关注

10
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
10分钟教你用Python爬取Baidu文库全格式内容(1)，2024最新Python笔经

如果你也是看准了Python，想自学Python，在这里为大家准备了丰厚的免费。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。