一、爬虫就是程序员写程序然后到网上抓取数据的过程
二、爬虫一般可以分为通用爬虫和聚焦爬虫
1、通用爬虫比如:百度、360、搜狐、谷歌等
通用的爬虫抓取新网站一般有如下几种方式:
(1)主动提交url
(2)设置友情链接
(3)百度会和DNS服务商进行合作,抓取新的网站
使用的原理:
(1)抓取网页
(2)采集数据
(3)数据处理
(4)提供检索服务
2、聚焦爬虫
根据特定的需求,进行抓取指定的数据。
主要是实现代替浏览器上网,爬取的步骤:
(1)获取一个url
(2)编写程序,模拟浏览器去访问url
(3)解析网页内容,进行数据的提取
抓取的网页特点:
(1)网页都有自己唯一的url
(2)网页内容都是html结构的
(3)使用的都是http、https协议