Python使用webdriver爬取百度文库

本文介绍如何使用Python的selenium和BeautifulSoup库爬取百度文库的文本内容,详细讲解准备工作,包括库的安装和Chrome驱动的配置。通过代码实例展示了爬取过程,并提供了一个针对不会Python的小白用户的exe程序,简化操作步骤。
摘要由CSDN通过智能技术生成

前言

不知道大家有没有过这样的经历,当你写论文搜索资料时,好不容易搜到一篇好文章准备往自己论文里复制时却发现复制不了,所以只能硬着头皮把那段话又一个字一个字敲出来(大多数百度文库就是这样)。这样其实很费时间的。那有没有什么好办法啊?我的答案是 当然有啊。要学以致用,接下来就给大家献上我的方法。小白的话可以直接看 第3个—小白福利

1 准备工作

当然干这种事并不是那么简单的,还要做准备工作。记得我之前也写过一个爬虫,但是用我之前写得爬虫去爬取百度文库,所得非所见,就是我用爬虫拿到的网页代码跟我看到的网页内容是有所不一样的,这是因为该网页需要动态爬取,那么就的用到selenium模块,当然爬取下来的网页代码非常长,而且你需要的文本内容在人家代码里,也不好复制。我们在需要一个BeautifulSoup模块来简化提取网页内容。

1.1 安装相关库

关于安装selenium和BeautifulSoup这两个库我不想多讲。命令符输入pip install Beautifulsoup4等待安装完成后输入pip install selenium等待安装完成即可。
在这里插入图片描述

1.2 安装Chrome以及驱动

在这个方面我踩了好多坑,所以有必要提醒一下,安装chrome驱动时,一定要安装同版本的驱动这里我提供一个75.0377.90版本的chrome浏览器和75.0377.90的chromedriver浏览器驱动,大家下载后一定要记得安装chrome,驱动不用安装但要记得驱动的文件位置。
点击下载chrome浏览器 ,提取码:nw0i

点击下载浏览器驱动,提取码:hbfd

2 代码实现

接下来我就爬取一个百度文库付费文档来实战一下https://wenku.baidu.com/view/0ed77137814d2b160b4e767f5acfa1c7ab008239.html。点击进入查看
首先看看这个网页
在这里插入图片描述

代码实现

from bs4 import  BeautifulSoup
from selenium import webdriver
<
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值