Python网络爬虫
网络爬虫的常用技术(一)
1、网络爬虫的基本原理
网络爬虫的基本工作流程:
(1) 获取初始的URL,该URL是用户自己制定的初始爬取得网页;
(2) 爬取对应的URL地址的网页时,获取新的URL地址
(3) 将新的URL地址放入队列中
(4) 从URL队列中获取新的URL,然后依据新的URL爬取网页,同时从新的网页中获取新的URL地址,重复上述的爬取过程;
(5) 设置停止条件,如果没有设置停止条件,爬虫就会一直爬取下去,直到无法获取新的URL地址为止。设置了停止条件后,爬虫将会在瞒足停止条件是停止爬取。
Python的网络请求
1、 urllib模块的安装
在Windows下的管理员命令提示框下输入:pip.exe,出现以下界面,可以安装,否则;就要安装pip.exe