python爬虫
文章平均质量分 81
Ghost__9
生亦何欢、死亦何苦
欢迎搜索微信公众号:倒悬山
展开
-
python爬虫从入门到放弃(二)- 爬虫的深层原理
上次说到了爬虫的基本原理、这次再深入的了解学习一下深层的本质。因为本人属于小白,这两年接触的都是ETL、数据仓库、BI 方面的东西,故这里转载以为专业人士的爬虫原理,末尾有原文地址。爬虫就是请求网站并提取数据的自动化程序。其中请求,提取,自动化是爬虫的关键!爬虫的基本流程发起请求通过HTTP库向目标站点发起请求,也就是发送一个Request,请求可以包含额外的header等信息,等待服务器响应获取...转载 2018-05-09 10:54:57 · 858 阅读 · 0 评论 -
python爬虫从入门到放弃(三)- Urllib库的基本使用方法1
Urllib 是Python自带的标准库,无需安装,直接可以用。提供了如下功能:网页请求响应获取代理和cookie设置异常处理URL解析爬虫所需要的功能,基本上在urllib中都能找到,学习这个标准库,可以更加深入的理解后面更加便利的requests库。----------------------------------------------------------------------我是分...原创 2018-05-09 17:57:33 · 523 阅读 · 0 评论 -
python爬虫从入门到放弃(四)- Urllib库的基本使用方法2
接着上一篇内容继续学习Urllib库响应响应类型、状态码、响应头import urllib.requestresponse = urllib.request.urlopen('https://www.python.org')print(type(response))可以看到结果为:<class 'http.client.httpresponse'="">我们可以通过respons...转载 2018-05-09 18:01:37 · 449 阅读 · 0 评论 -
python爬虫从入门到放弃(零)- 叨叨叨
今天是2018年5月8日,因个人原因暂停的python学习也暂停了一个多月。作为一个小白,越来越觉得自己只是码农,真正的星辰大海自己连见都没有见过。工作两年了,该拼命的充实自己了,再荒废就真的废了。 说了些无关紧要的话,只是记录一下自己的初衷,希望以后的人生路上可以“慎终如始,则无败事”。 python爬虫从入门到放弃,今天就正式开始了。...原创 2018-05-08 15:27:37 · 1016 阅读 · 1 评论 -
python爬虫从入门到放弃(一)- 认识爬虫
什么是爬虫百度百科里的解释是这样的:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。爬虫就是一种可以按照一定规律,自动抓取信息的程序或脚本。再简单一点就是:智能获取网络信息的工具。...原创 2018-05-08 16:10:44 · 2923 阅读 · 0 评论