一、爬虫是什么
爬虫即网络爬虫,即将网上的资源抓取下来。比如在抓取一个网页,在这个网中发现一条道路,这个道路就是指向网页的超链接那就可以抓到该网的资源
二、浏览网页过程
浏览网页的过程其实就是用户输入网址之后,经过DNS服务器,找到服务器主机,向服务器发出一个请求,服务器经过解析之后,发送给用户的浏览器HTML,JS,CSS等文件,浏览器解析出来,便是用户看到的界面。
所以说用户看到的网页实质是用html构成,爬虫爬取的也就是这些内容,通过代码将代码过滤,实现对资源的获取
三、何为URL
统一资源定位符是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息指出文件的位置以及浏览器应该怎么处理它。
URL格式组成部分
1.第一部分是协议
http——超文本传输协议资源
https——用安全套接字层传送的超文本传输协议
ftp——文件传输协议
mailto——电子邮件地址
ldap——轻型目录访问协议搜索
file——当地电脑或网上分享的文件
news——Usenet新闻组
gopher——Gopher协议
telnet——Telnet协议
2.第二部分是存有该资源的主机IP地址(有时也包括端口号)
3.第三部分是主机资源的具体地址,比如文件名