爬虫
魔笛手CTO
人生看淡,不服就干
展开
-
【干货】万字长文教你对抗邪恶的爬虫
或许是竞争对手在窥探商业机密。或许是某个学生为了论文而做的数据采集。又或许只是码农的一个恶作剧。无论如何,一个行为不受控制的爬虫都会对我们的数据安全有着或多或少的威胁,它迫使着我们行动起...原创 2020-05-18 08:08:00 · 668 阅读 · 0 评论 -
python爬虫知识梳理——大纲
做了一些爬虫项目,想通过博客来梳理一下爬虫思路,总结一下经验,计划用一个系列若干博文来完成计划从 一、http协议 1、python爬虫知识梳理——HTTP协议(概述) 2、python爬虫知识梳理——HTTP协议(请求) 3、python爬虫知识梳理——HTTP协议(响应) 二、request...原创 2018-05-06 22:16:22 · 1057 阅读 · 0 评论 -
python爬虫知识梳理——HTTP协议(概述)
我们写爬虫是为了爬取网站数据,而网站的数据传输都是基于HTTP的。HTTP协议不同于我们平常所见HTML页面,HTML页面只是HTTP协议里面一个可视化的子集。HTTP(HyperText Transfer Protocol,超文本传输协议)是基于TCP的C/S架构的一种用于传输超文本的网络协议。掌握了HTTP协议,后面爬虫遇到的很多问题都可以迎刃而解了。 一、HTTP之...原创 2018-05-21 19:44:53 · 376 阅读 · 0 评论 -
python爬虫知识梳理——HTTP协议(请求)
二、HTTP请求 1、一个完整的请求可以分为请求行、请求头 、请求数据(非必要) 1.1、请求行 请求行位于整个请求的开头,请求行自身又可以分为请求方式、请求的URI、请求采用的HTTP协议版本号, 相互之间以空格划分。 目前HTTP协议版本为HTTP1.1、HTTP1.0、HTTP0.9,主流版本为1.1 。 HTTP1.1版本中支...原创 2018-05-21 19:49:54 · 308 阅读 · 0 评论 -
python爬虫知识梳理——HTTP协议(响应)
三、HTTP响应1、一个完整的请求可以分为响应行、响应头 、响应数据 1.1 响应行 响应行又可以分为协议版本、状态码、状态描述。 协议版本并非一定会对应请求的版本。 状态描述简短的描述了状态码,其中常用的状态码有200(响应正常)、404(页面找不到)、502(服务器内部错误)。开发爬虫的过程中经常还会见到302(重定向)、40...原创 2018-05-21 20:25:59 · 756 阅读 · 0 评论 -
python爬虫知识梳理——requests库的使用
requests库是如此的简洁好用,以至于爬虫神器。我也用过urllib2,保持了python的文件操作的接口,使用操作过文件、数据库之类的,使用urllib2会感到很熟悉,但是不可否就是繁琐。我也用过scrapy,高度抽象了爬虫的编写流程,以框架的形式提供,讲道理,在我用习惯了requests之后,每次想要尝试scrapy都半途而废。 requests的使用手册有官方文档,支持中...原创 2018-07-10 18:40:15 · 323 阅读 · 0 评论 -
用数据告诉你程序员都在看什么
开发者头条是一个技术文章的聚合网站,在程序员圈子里有较高的评价。网站每天会精选出若干精彩文章,用户在浏览时可以对自己认为写得好的文章点赞和收藏,最终每日的文章会按照点赞数排名显示。因为老张平时也会浏览开发者头条,今天突发奇想,想要看一下到底程序员每天都对什么样的技术文章感兴趣。说干就干,写了个爬虫抓取了最近100天(2019.06.25--2019.10.02)的精选文章,使用点...原创 2019-10-04 21:10:41 · 280 阅读 · 0 评论