python爬虫百度文库源码_Python爬取百度文库学习

本文详细介绍了使用Python爬虫解析百度文库内容的步骤,包括自动滚动显示完整页面、获取txt和doc文档的网页源代码、解析json数据并保存为txt文件。主要涉及selenium、requests库,以及正则表达式处理。
摘要由CSDN通过智能技术生成

首先先分享下github这篇文章吧,参考了部分代码,但我想做一个很详细的解读。新版百度文库爬虫 · Jack-Cherish/python-spider@3c5480d​github.comv2-074a82a5ae7cbfc9ea214a86ded80c45_ipico.jpg

首先,我想自动化打开百度文库的页面(其实这一步,并不需要,经实践得知)。

不过,我觉得这一步算是初级的对selenium理解,希望对大家有所帮助。

第一步的流程:自动化打开百度文库网页 -> 将窗口下滑到“继续阅读”的按钮处 -> 自动点击 -> 显示完整页面。

def auto_page_search(url):

print('开始自动查询网页')

browser = webdriver.Chrome()

# browser.get('https://wenku.baidu.com/view/dcfab8bff705cc175527096e.html')

browser.get(url)

print('等待5秒')

time.sleep(5)

# 下面这个语句并不是查找“继续阅读”按钮所在位置,而是更上面的元素,因为按照原本元素位置滑动窗口会遮挡住,大家可以试一试

eles = browser.find_element_by_xpath('//*[@id="html-reader-go-more"]/div[1]/div[3]/div[1]')

browser.execute_script('arguments[0].scrollIntoView();', eles)

print('等待2秒')

time.sleep(2)

#点击“继续阅读”按钮

browser.find_element_by_xpath('//*[@id="html-reader-go-more"]/div[2]/div[1]/span/span[2]').click()

print('已显示文档所有内容')

接着,欸我们就想着定义一个可以抓取网页源代码的函数,以便于我们后面的爬取,这个函数很重要。

<
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值