前言
因为爬虫下限很低,上限极高
之所以网上爬虫教程这么多,是因为爬虫本来就很简单,从逻辑上讲无非就是构建请求-发送请求-解析响应-获得数据这4步,有可能写几行代码就搞定了
所以网上的教程一般都是简单教一下怎么用python模拟请求和搜索DOM,大部分人学会了之后也就去网上随便爬点图片什么的,能做的东西非常有限。
这也就是为什么很多人觉得爬虫真的没有技术含量。
因为他们对于爬虫的认知,仅仅停留在模拟请求这一件事上而已。
摸鱼随笔/python_爬虫_壁纸
什么是爬虫?
而其实一个强大的爬虫,要涉及到非常多的知识和技术:
- 要懂得HTTP协议,知道哪个协议可以帮助节省带宽和时间;
- 要了解数据库知识,不然怎么优化、存储数据;
- 数据库分布式总要懂一点,不然爬虫怎么协作呢;
- 要学习算法,基本的调度算法、爬虫调度需要了解;
- 要学习JavaScript,数据是怎么处理的,如何反向解析这些数据等等;
基础爬虫很简单,普通的开发都能通过很短的