爬虫解释:
通过程序,根据url(http://taobao.com)进行网页的爬取 获取有用的信息
实用程序模拟浏览器,去向服务发送请求,获取响应信息
爬虫的核心
爬取网页:爬取整个网页 包含了网页中所的内容
解析数据:将网页中得到的数据 进行解析
难点:爬虫和但爬虫之间的博弈
爬虫的类型
实例
通用爬虫
百度,360,Google,搜狗等搜索引擎
功能
访问网页-》抓取数据-》数据储存-》数据处理-》提供检索服务
robots协议
一个约定俗成的协议,添加robots.txt文件 来说明本网站哪些内容不可被抓取,起不到限制作用 自己写的爬虫无需遵守
网站排名(seo)
1根据pagerank算法进