request+xpath爬取多个网页信息并保存到本地

最新推荐文章于 2023-01-08 14:29:47 发布

hp20170614

最新推荐文章于 2023-01-08 14:29:47 发布

阅读量1.6k

点赞数 1

分类专栏： python爬虫文章标签： python 爬虫

本文链接：https://blog.csdn.net/hp20170614/article/details/116998159

版权

本文介绍了使用Python爬虫结合request和xpath抓取多页网页文章信息的过程，包括分析网页结构、解决链接不完整的问题，并提供了解决这些问题的代码示例，最终成功将数据保存到本地。

摘要由CSDN通过智能技术生成

文章目录

前言
一、第一步：分析网页
二、遇到的问题
- 1.一个网站里有很多网页，一个网页里有很多篇文章，怎么提取文章信息
- 2.ｘｐａｔｈ解析的链接不完整
三、代码

前言

最近在学习python爬虫，实践是最好的学习方法。想爬取一个网页的信息保存到excel表中，从网上找了很多代码，要么不符合要求，要么总是有错误。
自己看了很多CSDN的代码，终于达到了自己想要的效果。这篇文章就把学习中遇到的坑记录一下，并把代码分享给大家。

一、第一步：分析网页

首先要有一些前端基础，能看懂HTML，CSS语句。其次需要了解要爬取网站的页面，查看网页源代码。然后根据网页源代码的结构，想好代码的步骤和思路。
这是我们要爬的网页：https://academy.binance.com/zh/articles?page=１
页面如下：在这里插入图片描述
如果想提取文章的标题，右键单击页面空白处，选择“检查”，进入开发者模式，选择左上角的小箭头，停留在网页上，就显示源代码的位置。选择copy，然后选择ｃｏｐｙ　ｘｐａｔｈ此方法，别的博客多有介绍，不在累述。

二、遇到的问题

1.一个网站里有很多网页，一个网页里有很多篇文章，怎么提取文章信息

定义两个函数，一个用于提取每个网页的文章的ｕｒｌ，并且在这个函数里要设置一个循环，把每个网页上的文章链接保存到列表里。另一个函数用ｘｐａｔｈ来解析ｕｒｌ。
还有一个主函数用于保存结果到本地。

代码如下（示例）：

# 这个函数先把文章的网址保存在列表里
def get_name__url():
# 此函数解析网页
def get_information(url):

2.ｘｐａｔｈ解析的链接不完整

这个问题困扰了很久，刚开始代码频频出错，又不知道问题所在，头疼了很久，这个博客帮了我大忙。博客链接: link.
就比如我爬的这个网页，看下图＜ａ＝ｈｒｅｆ···＞并不是完整的链接，这时候需要我们在提取到的链接前面加上网站头。
在这里插入图片描述

代码如下（示例）：

return ['https://academy.binance.com' + href for href in list_urls]

该处使用的url网络请求的数据。

三、代码

首先展示一下爬取的信息：

最低0.47元/天解锁文章

hp20170614

关注

1
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录