爬虫简介
打开浏览器,在百度里随便搜索一个关键词,比如“后端开发”,百度会显示出很多的搜索结果,这些结果是怎么来的?
其实这些结果都是保存在百度的数据库中,当用户搜索某个词时,会在数据库中检索出相关的记录。那么这些记录又是哪里来的?
比如你有一个网站,网站内容是关于编程的,如果你分析过网站的访问日志,你会发现经常有百度(Google)爬虫来访问。
cat xxx.access.log | grep Baiduspider
cat xxx.access.log | grep Googlebot
Baidu爬虫
Google爬虫:
百度(Google)来干嘛?其实是来抓取你网站的内容,并且可能会把你网站页面收录到它的数据库中。在百度的搜索栏里检测一下,输入 “site:xxx.com”,比如我的个人博客: www.comcto.com ,看看百度收录了多少页面。
爬虫会经常光顾同一个网站,访问网站的很多页面,并且分析页面的内容,做一些如归类,存档等等操作。当用户搜索时,如果你的网站与搜索有关,很有可能你的网站就会出现在搜索结果记录中。
如何使用PHP实现一个网络爬虫?