Python使用webdriver爬取百度文库

最新推荐文章于 2024-04-20 20:51:58 发布

捉猫的耗子

最新推荐文章于 2024-04-20 20:51:58 发布

阅读量553

点赞数 5

分类专栏： python学习

本文链接：https://blog.csdn.net/qq_25939803/article/details/101416590

版权

本文介绍如何使用Python的selenium和BeautifulSoup库爬取百度文库的文本内容，详细讲解准备工作，包括库的安装和Chrome驱动的配置。通过代码实例展示了爬取过程，并提供了一个针对不会Python的小白用户的exe程序，简化操作步骤。

摘要由CSDN通过智能技术生成

前言

不知道大家有没有过这样的经历，当你写论文搜索资料时，好不容易搜到一篇好文章准备往自己论文里复制时却发现复制不了，所以只能硬着头皮把那段话又一个字一个字敲出来（大多数百度文库就是这样）。这样其实很费时间的。那有没有什么好办法啊？我的答案是当然有啊。要学以致用，接下来就给大家献上我的方法。小白的话可以直接看第3个—小白福利

1 准备工作

当然干这种事并不是那么简单的，还要做准备工作。记得我之前也写过一个爬虫，但是用我之前写得爬虫去爬取百度文库，所得非所见，就是我用爬虫拿到的网页代码跟我看到的网页内容是有所不一样的，这是因为该网页需要动态爬取，那么就的用到selenium模块，当然爬取下来的网页代码非常长，而且你需要的文本内容在人家代码里，也不好复制。我们在需要一个BeautifulSoup模块来简化提取网页内容。

1.1 安装相关库

关于安装selenium和BeautifulSoup这两个库我不想多讲。命令符输入pip install Beautifulsoup4等待安装完成后输入pip install selenium等待安装完成即可。
在这里插入图片描述

1.2 安装Chrome以及驱动

在这个方面我踩了好多坑，所以有必要提醒一下，安装chrome驱动时，一定要安装同版本的驱动这里我提供一个75.0377.90版本的chrome浏览器和75.0377.90的chromedriver浏览器驱动，大家下载后一定要记得安装chrome，驱动不用安装但要记得驱动的文件位置。
点击下载chrome浏览器，提取码：nw0i

点击下载浏览器驱动，提取码：hbfd

2 代码实现

接下来我就爬取一个百度文库付费文档来实战一下https://wenku.baidu.com/view/0ed77137814d2b160b4e767f5acfa1c7ab008239.html。点击进入查看
首先看看这个网页
在这里插入图片描述

代码实现

from bs4 import  BeautifulSoup
from selenium import webdriver
<

最低0.47元/天解锁文章

捉猫的耗子

关注

5
点赞
踩
12

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录