龙源期刊网
http://www.qikan.com.cn
基于
Python
的网络爬虫的设计与实现
作者:高祖彦
来源:《商情》
2020
年第
33
期
【摘要】一个爬虫从网上爬取数据的大致过程可以概括为:向特定的网站服务器发出请
求,服务器返回请求的网页数据,爬虫程序收到服务器返回的网页数据并加以解析提取,最后
把提取出的数据进行处理和存储。因此,一个爬虫程序可以主要分为三大部分:向服务器请求
并获取网页数据、解析网页数据、数据处理和存储。
【关键词】
Python;
网络爬虫
;
设计与实现
一、引言
随着网络技术的飞速发展,互联网中的信息呈现爆炸式的增长,互联网的信息容量也达到
了一个前所未有的高度。为了方便人们获取互联网中的信息,出现了一批搜索引擎。传统的搜
索引擎在返回的结果方面有局限性,网络爬虫因此而诞生。网络爬虫又名叫网络机器人,它是
一种按照特定规则爬取网页信息的程序。与传统搜索引擎不同,网络爬虫只爬取想要获得的特
定类型的信息,进而提高搜索引擎的效率。
二、
Python
语言
Python
语言是一种比较常用的开发网址工具,这种语言自身具有非常强大功能。近些年,
随着互联网行业的快速发展,各种行业自身都需要拥有自己的网址,这就给
Phthon
语言的应
用提供了很大发展机会。
Python
语言能够兼容各种不同类型的操作系统。站在网址开发的角度
上分析来说
Python
是属于面向对象语言,这种编程语言能夠在短时间内实现对象编程,
Python
属于解释性语言,整体通过简单的语法与动态输入有力支持,使得
Python
逐渐成为各种操作
系统平台上常用的脚本语言之一,特别是那些追求高性能的综合应用程序开发过程中
Python
语言占有重要地位。
三、获取网页数据
在
Python
中,一般爬虫主要是通过一个
python
的第三方库
requests
来实现这个过程的,
requests
库提供了两种发起请求的方法,分别为
get
()何
post
(),这也是大部分网站都会实
现的两个接口。一般地,
get
()方法直接通过
url
参数(有时候还需要请求头参数)便可以发
起有效请求
;post
()方法除此之外还需要一些额外的表单参数,才可以发起有效请求。
在获取网页数据的这个过程中,常遇到的问题是网站运用了异步加载技术(
AJAX
)和需
要用户登录才可以进入相应的页面。所谓异步加载就是一种通过只和服务器交换少量的每页不