前言
最近在学习python爬虫,实践是最好的学习方法。想爬取一个网页的信息保存到excel表中,从网上找了很多代码,要么不符合要求,要么总是有错误。
自己看了很多CSDN的代码,终于达到了自己想要的效果。这篇文章就把学习中遇到的坑记录一下,并把代码分享给大家。
一、第一步:分析网页
首先要有一些前端基础,能看懂HTML,CSS语句。其次需要了解要爬取网站的页面,查看网页源代码。然后根据网页源代码的结构,想好代码的步骤和思路。
这是我们要爬的网页:https://academy.binance.com/zh/articles?page=1
页面如下:
如果想提取文章的标题,右键单击页面空白处,选择“检查”,进入开发者模式,选择左上角的小箭头,停留在网页上,就显示源代码的位置。选择copy,然后选择copy xpath此方法,别的博客多有介绍,不在累述。
二、遇到的问题
1.一个网站里有很多网页,一个网页里有很多篇文章,怎么提取文章信息
定义两个函数,一个用于提取每个网页的文章的url,并且在这个函数里要设置一个循环,把每个网页上的文章链接保存到列表里。另一个函数用xpath来解析url。
还有一个主函数用于保存结果到本地。
代码如下(示例):
# 这个函数先把文章的网址保存在列表里
def get_name__url():
# 此函数解析网页
def get_information(url):
2.xpath解析的链接不完整
这个问题困扰了很久,刚开始代码频频出错,又不知道问题所在,头疼了很久,这个博客帮了我大忙。博客链接: link.
就比如我爬的这个网页,看下图<a=href···>并不是完整的链接,这时候需要我们在提取到的链接前面加上网站头。
代码如下(示例):
return ['https://academy.binance.com' + href for href in list_urls]
该处使用的url网络请求的数据。
三、代码
首先展示一下爬取的信息: