今天从三个方面讲讲爬虫。首先什么是爬虫?爬虫有什么用?怎么实现爬虫?
一:爬虫的定义
网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。
二:爬虫可以做什么
知乎上各位大佬都讲过,不再详细讲解。感觉最重要的作用就是信息的获取。信息的时代,有信息资源就有优势。
1)市场分析:电商分析、市场分析等;
2)市场监控:新闻、舆论等等;
3)商机发现:例如前几天的头盔,如果能爬到公安部之前的新闻,可以提早发现。
三:爬虫的实现
1)网址构成
网站一般由域名(如HTTPS://http://www.tmall.com)+页面构成,并且域名一般不会改变,因此爬虫所做的就是解析域名及各级链接和解析页面内容。
2)网页加载
3)页面请求
在浏览器中输入网址,回车后,会经过下面
1)dns解析,获取ip地址;(建站就是把域名跟服务器ip进行绑定)
2)建立TCP链接,握手;
3)发送HTTP请求报文;
4)服务器接收请求并处理;
5)服务器发送响应报文;
6)断开TCP链接。
4)爬虫框架
1)待爬取的URL;
2)将URL放入队列;
3)取出待抓取的URL,下载并存储进已下载网页库中。此外,将这些URL放入待抓取URL队列,从而进入下一循环;
4)分析已抓取队列中的URL,并且将URL放入待抓取URL队列,从而进入下一循环。
参考