Spider
he00pan
这个作者很懒,什么都没留下…
展开
-
python爬虫(四)Requests库的使用
什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库 如果你看过上篇文章关于urllib库的使用,你会发现,其实urllib还是非常不方便的,而Requests它会比urllib更加方便,可以节约我们大量的工作。(用了requests之后,你基本都不愿意用urllib了)一句话,requests是pyth...转载 2019-01-23 21:37:11 · 411 阅读 · 0 评论 -
Python爬虫(二)爬虫原理
爬虫就是请求网站并提取数据的自动化程序。其中请求,提取,自动化是爬虫的关键!下面我们分析爬虫的基本流程 爬虫的基本流程 发起请求 通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应 获取响应内容 如果服务器能正常响应,会得到一个Response,Response的内容便是所要获取的页面内容,类型可能是HTML,Json字符串,...转载 2019-01-23 11:02:46 · 269 阅读 · 0 评论 -
Python爬虫(三)Urllib库的使用
官方文档地址:https://docs.python.org/3/library/urllib.html 什么是Urllib Urllib是Python内置的HTTP请求库 包括以下模块: urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块 urllib.robotparser robots.txt解析模块 一、urll...转载 2019-01-23 17:07:19 · 143 阅读 · 0 评论