request+xpath爬取多个网页信息并保存到本地

本文介绍了使用Python爬虫结合request和xpath抓取多页网页文章信息的过程,包括分析网页结构、解决链接不完整的问题,并提供了解决这些问题的代码示例,最终成功将数据保存到本地。
摘要由CSDN通过智能技术生成


前言

最近在学习python爬虫,实践是最好的学习方法。想爬取一个网页的信息保存到excel表中,从网上找了很多代码,要么不符合要求,要么总是有错误。
自己看了很多CSDN的代码,终于达到了自己想要的效果。这篇文章就把学习中遇到的坑记录一下,并把代码分享给大家。


一、第一步:分析网页

首先要有一些前端基础,能看懂HTML,CSS语句。其次需要了解要爬取网站的页面,查看网页源代码。然后根据网页源代码的结构,想好代码的步骤和思路。
这是我们要爬的网页:https://academy.binance.com/zh/articles?page=1
页面如下:在这里插入图片描述
如果想提取文章的标题,右键单击页面空白处,选择“检查”,进入开发者模式,选择左上角的小箭头,停留在网页上,就显示源代码的位置。选择copy,然后选择copy xpath此方法,别的博客多有介绍,不在累述。

二、遇到的问题

1.一个网站里有很多网页,一个网页里有很多篇文章,怎么提取文章信息

定义两个函数,一个用于提取每个网页的文章的url,并且在这个函数里要设置一个循环,把每个网页上的文章链接保存到列表里。另一个函数用xpath来解析url。
还有一个主函数用于保存结果到本地。

代码如下(示例):

# 这个函数先把文章的网址保存在列表里
def get_name__url():
# 此函数解析网页
def get_information(url):

2.xpath解析的链接不完整

这个问题困扰了很久,刚开始代码频频出错,又不知道问题所在,头疼了很久,这个博客帮了我大忙。博客链接: link.
就比如我爬的这个网页,看下图<a=href···>并不是完整的链接,这时候需要我们在提取到的链接前面加上网站头。
在这里插入图片描述

代码如下(示例):

return ['https://academy.binance.com' + href for href in list_urls]

该处使用的url网络请求的数据。


三、代码

首先展示一下爬取的信息:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值