Url 通用资源标志符(Universal Resource Identifier)
URI有三部分组成,
- 访问资源的命名机制
- 存放资源的主机名
资源自身的名字
URL 统一资源定位符
采用URL可以用一种统一的格式来描述各种信息资源,包括文件,目录,服务器的地址等URL有三部分是组成第一部分是协议
- 第二部分是存有该资源的主机IP地址(有时包括端口号)
第三部分是主机资源的具体地址,如目录和文件
第一部分与第二部分用://隔开,第二部分与第三部分用/隔开,第一部分与第二部分是不可缺少的,但是第三部分有时是可以忽略的。使用超级文本协议的HTTP
- URL表示文件时,服务器方式用file表示,后面有主机IP,文件的存取路径(即目录)和文件名等信息,有时可以省略文件名和目录,但是/不能省
* 爬虫最主要的处理对象是是URL*它根据URL地址获取所需要的文件内容,然后对它进行进一步的处理,因此准确地理解URL对理解网络爬虫至关重要
。所谓网页抓取就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。类似于使用程序模拟IE浏览器的功能,把URL作为HTTP请求的内容发送到服务器端,然后读取服务器端响应的资源