网络爬虫的基本操作时抓取网页。抓取网页,首先要理解URL!!
抓取网页的过程其实很简单,举个例子:
1。我们打开一个网站如下:
2.在打开网页的过程其实就是将浏览器作为一个浏览的客户端,向服务器发送一次请求,把服务器段的文件抓取到本地,在进行解释,展现。其中,网页源码就是从服务器中抓取的东西。
3.我们在浏览器地址栏输入的东西就叫做URL。
剖析URL
URL---Uniform Resource Locator。统一资源定位符
URI---Universal Resource Identifier。通用资源标志符
先理解URI通常由三部分组成:1.访问资源的命名机制,2.存放资源的主机名;3资源自身的名称
比如:http://www.baidu.com/xxx/xxx/
理解:通过HTTP协议访问资源,位于主机www.baidu.com,通过路径/xxx/xxx访问。
其次URL是URI的一个子集,也就是internet上描述信息资源的字符串,主要在各种WWW客户程序和服务程序上。
URL格式由三部分组成:第一个部分:协议(服务方式) 第二个部分存放该资源的主机Ip地址 第三个部分主机资源的具体地址。。
第一个与第二部分用://隔开,第二个与第三个部分用/隔开。1,2不可缺少。
两种URL协议
1.HTTP协议的URL 。
http://china.cankaoxiaoxi.com/2014/0808/454139.shtml
主机域名为: china.cankaoxiaoxi.com,文件454139.shtml在/2014/0808目录下
2.文件的URL
file://www.asc.com/pub/cc.txt
主机域名:www.asc.com 文件cc.text 在目录:/pub下
总结
爬虫最主要的处理对象是URL,爬虫根据URL地址取得所需要的文件内容,然后对他进行下一步的处理,因此准确理解URL对网络爬虫至关重要。