爬虫知识点小结
网络爬虫
一、定义
按照一定的规则,自动抓取万维网数据的程序或脚本。
二、爬虫可以解决的问题
1.解决冷启动问题
2.搜索引擎的根基 ---- 通用爬虫是搜索引擎的重要组成部分
3.帮助机器学习建立知识图谱
4.制作各种比价软件
搜索引擎
一、定义
通过特定的算法,从互联网获取网页信息,为用户提供检索服务的一种程序。
二、组成部分
搜索引擎主要是由通用爬虫组成
通用爬虫是指将互联网上的网页信息整体爬取下来的的程序
三、工作步骤
1.抓取网页
2.数据存储
3.预处理
···提取文字
···中文分词
···消除噪音(比如版权声明文字。导航条等)
4.设置网站排名(根据访问量),为用户提供检索服务
问题:为什么搜索引擎可以爬取所有的网页?—搜索引擎的通用是如何来爬取所有网页的。
一个网页就是一个url,这个问题其实在问,【url的获取来源】。
url的获取来源:
1、新网站会主动提交网址给搜索引擎。
2、网页中的一些外链,这些url全部都会加入到通用爬虫的爬取队列。
3、搜索引擎和dns解析服务商合作,