Internet正在快速的改变人们生产和生活的各个方面,现代用户利用Internet可以有效的完成很多传统方法所难以实现的工作,如实时通信、异地文件传输和海量信息检索等。本章首先主要对Internet的基本内容做一介绍,以使读者理解现代Internet网络的特点,及其这些特点对目前Internet信息查询活动和方法的影响;其次,本章还重点介绍了Internet所提供的各种信息资源服务类型,并对每种方法的特点和使用方法做必要说明。
1.1 Internet简介
1.1.1 国际Internet的发展历史
到今天,Internet的发展规模已经达到相当巨大的规模。据国外的研究站点报道,利用每6个月收集而来的Internet站点数量统计信息,现代Internet网络可以每隔5.32年增大一倍,几乎呈现指数增长的态势,如图2. 1所示:
图2. 1 1995年8月到2008年1月间Internet中主机的数量增长曲线[1]
但是,早期的Internet并没有这么大的规模,甚至人们都意识不到未来的发展会是今天这个样子。
1)试验研究网络(ARPANET)
据资料表明,现代的Internet最早是由一个名叫ARPANET的试验研究网络发展而来。在二十世纪六十年代,美苏冷战的格局并未改变,美国对核弹攻击可能带来的巨大破坏有着明确的认识,所以在1969年,美国国防部的国防高级研究计划署(Advanced Research Project Agency,ARPA)就试图建立一种结构灵活、安全稳健的计算机网络以适应这种要求。这项为了验证远程分组交换网的可行性而进行的试验工程,可以防止核战爆发引起大量电话业务中断导致军事通信瘫痪的局面出现,甚至可以在局部节点遭到彻底破坏以后,仍然可以凭借着其他的连接节点继续保持网络的正常通信。这个网络就是ARPANET,刚开始时仅有4个节点,分别建在加州大学洛杉矶分校(UCLA)、斯坦福研究所(SRI)、加州大学圣大巴比分校(UCSB)以及犹他大学(UTAH)。
该网络就是现代Internet的前身。但是今天ARPANET网络早已不复存在,它留存给现代Internet的最大贡献就是研发了大量的先进技术,而恰恰是这些技术使得它的后继者才有可能建立起这么大的一个网络。如在1974年ARPANET创造出了一种更有效的通信协议IP协议(Internet Protocol)和TCP协议(Transmission Control Protocol)。进入80年代以后,此协议被加利福尼亚伯克利分校集成到了BSD UNIX操作系统中,此后UNIX被许多院校采用,使得TCP/IP快速发展起来。1983年,ARPANET的全部计算机完成了向TCP/IP的转换,并以ARPANET为主干网建立了跨越全美的早期网络。另外,一些诸如异种计算机的联网技术、分组交换和路由选择技术等都极大的增强了网络的灵活性。今天的Internet仍然广泛的在使用这些技术。
2)学术性网络(NSFNET)
此时,美国国家科学基金会(National Science Foundation,NSF)开始介入。该基金会大力倡导网络用户发扬奉献精神,反对以盈利为目的而使用网络,所以它从1986年开始,建立了一个以既有ARPANET网络为基础的学术性网络,即NSFNET。美国国家科学基金投入大量经费支持NSFNET的发展,如支付了大约10%的线路租用费,为了最终实现信息资源共享,NSFNET还把全美的主要研究中心和5个科研、教育用的计算中心近8万台计算机联成一体,并与ARPANET相连。
到了1990年,ARPANET的大部分网络已被NSFNET所取代。NSFNET的形成和发展,也使它成为了美国计算机网络的最重要组成部分。与此同时,许多国家也相继建立了本国的主干计算机网络,并和美国的NSFNET网络连接了起来,形成了一种跨越全球的大型网络系统。同时,计算机网络的普及和影响程度得到了进一步的加强。
3)商业化网络(ANSNET)
NSFNET最初的宗旨是用于支持教育和科研活动,而不是用于商业性的盈利活动。然而,如果没有商业活动的介入,很难想象网络的发展会深入到千家万户。很多企业都注意到了利用这种大型跨地区的网络,使用它完全可以进行一些非常有价值的信息传输活动,而且在内容传输上,这种网络显然要比传统的电话电视网络更为方便。到了1991年,美国国家科学基金会似乎也意识到了这一点,逐渐放松了有关NSFNET使用的限制,开始允许企业进行部分商业活动。
1992年,美国高级网络服务公司(Advanced Network & Service,ANS)推出了ANSNET,作为后起之秀,它进一步取代了NSFNET成为了主干网,此时全球的计算机网络系统已经基本形成,而且相互连接了起来。同时,其他各个大型商业公司也纷纷加入了这个行列,还出现了很多专门从事计算机网络商业服务的企业。1994年,美国国家科学基金会宣布不再给NSFNET在运行、维护上的经费支持,而改由MCI和Sprint等商业公司来进行相关的运行维护工作。1995年,NSFNET正式结束了它作为学术性主干网的历史使命,正式转化为商业性网络。
4)现代Internet
有必要解释一下Internet这个词语的含义。事实上,全球的互联网络都是由各个国家各个计算机网络通过相互连接组成的,何来Internet网络?仔细观察,Internet单词原由两部分组成:一是Inter,指物体之间;二是Net,指网络。因此,Internet即是指网络之间的网络,形象些说,即为“众网之网”或者“网际网”。这说明其实并无Internet网络,真实存在的网络都是各个子网络,这些子网络在整体上构成了一个完整的、大型的Internet网络。理解这一点非常重要,有助于我们对很多问题的认识。所以,早期的ARPANET和NSFNET等网络,既可以看成是现代Internet的前身,也可以看成是现代Internet的组成部分,当然今天的Internet网络不仅在规模上而且在技术上都有了质的变化。
但是,现代Internet虽然很大,却是一个“无政府”的网络。由于Internet管理上的开放性,没有人实际拥有Internet,但它又是可以被每个用户所共同拥有和使用。这也是Internet的最大特点。由于Internet没有物理上的集中管理机构,所以为了促进Internet的持续发展,保证运行所需的标准兼容性,国际社会先后成立了一些机构来自愿承担相应的管理职责,这些组织机构一般都是非赢利组织,遵循着自下而上的结构原则[2]。
下面介绍几个重要的组织机构:
■Internet协会(Internet Society,ISOC):网址为http://www.isoc.org,一个相当于Internet最高管理机构的组织。它成立于1992年,总部设在美国的雷斯顿(Reston)。ISOC是作为一个“全球Internet协调与合作的国际组织”而建立的,其任务是确保全球Internet发展的有利性和开放性,并通过领导标准、议题和培训工作来发展互联网络的相关技术。
■Internet网络信息中心(Internet Network Information Center,InterNIC):网址为http://www.internic.net。它成立于1993年1月,该机构的主要任务是负责所有以.com、.org、.net和.edu结尾的顶级国际域名的注册与管理。而.mil和.gov等顶级国际域名仍然由美国政府管理,各个国家的顶级域名则由各国自己来管理。目前的InterNIC由ICANN[3]负责维护,提供互联网域名登记服务的公开信息。
■WWW协会(World Wide Web Consortium,W3C):网址为http://www.w3c.org,它的主要任务在于确定和颁布有关WWW应用的标准,它的服务包括为World Wide Web开发者和用户开发的一个信息库,体现和推动标准的参考代码实施,以及各类展示新技术的源应用程序范例等。
除此以外,还有很多国际和地区的Internet组织机构,如表2. 1所示:
表2. 1 著名的Internet国际管理组织和机构
简称 | 组织名称 |
ICANN | 国际互联网名字与编号分配机构 |
IETF | 国际互联网工程任务组 |
APNG | 亚太地区互联网社群组织 |
ITU | 国际电信联盟 |
APNIC | 亚太互联网信息中心 |
APTLD | 亚太顶级域名协调论坛组织 |
APIA | 亚太地区互联网协会 |
APAN | 亚太地区先进网络联合会 |
IAB | 互联网架构委员会 |
WWTLD | World Wide Alliance of Top Level Domains |
1.1.2 中国Internet的发展
相对于国外Internet的发展,中国的Internet起步较晚,但是发展速度却相当快。截至 2008 年底,中国的网站数,即域名注册者在中国境内的网站数(包括在境内接入和境外接入)达到287.8 万个,较2007 年增长91.4%,是2000 年以来增长最快的一年[4]。
如果说使用Internet就是Internet发展的第一步,那么可以说是钱天白教授揭开了中国人使用Internet的序幕。1987年9月20日,中科院计算机网络信息中心钱天白[5]教授通过意大利公用分组网ITAPAC设在北京的PAD机,经由意大利ITAPAC和德国DATEX―P分组网,发出我国第一封电子邮件“Across the Great Wall we can reach every corner in the world(越过长城,走向世界)”,实现了和德国卡尔斯鲁厄大学的连接,通讯速率最初为300bps[6]。
当然,这个极具象征意味的事件并不能表示中国在二十世纪八十年代就已经建立了Internet网络。进入90年代后,全球的各个主要国家都逐渐提出了自己的Internet建设计划。如1992年美国副总统阿尔·戈尔就率先提出美国信息高速公路法案,所谓信息高速公路就是一种以Internet为基础、使人们方便地共享海量信息资源的高速计算机网络系统。相应的,中国在1994年建成了第一个跨园区的光纤互联计算机网络——北京中关村地区教育与科研示范网络,也被称为“中国国家计算机与网络设施(The National Computing and Networking Facility of China,NCFC)”,在国内该网络把清华大学、北京大学的校园网,以及中科院在中关村地区的众多研究所通过光纤连成一体。1994年4月20日,该网络到美国加州Stocken的64Kbps卫星专线开通,首次实现了我国与国际Internet的直接连接,使得我国成为了国际Internet网络的一个成员。因此,国际Internet组织就把中国NCFC国际线路开通的时间,即1994年定义为中国加入Internet的起始年份。
从那以后,随着中国计算机网络的快速发展,一大批著名的网络应运而生,它们都先后构成了我国Internet网络的重要组成部分,如表2. 2所示:
互联网络名称 | 互联单位 | 运营性质 | 建立时间 |
中国公用计算机互联网(CHINANET) | 中国电信集团公司 | 商业 | 1995.5 |
中国金桥信息网(GBNET) | 吉通通信有限责任公司(已并入中国联通) | 商业 | 1996.9 |
中国联通公用计算机互联网(UNINET) | 中国联合通信有限公司 | 商业 | 1999.4 |
中国网通公用互联网(CNCNET) | 中国网络通信有限公司(已并入中国联通) | 商业 | 1999.7 |
中国移动互联网(CMNET) | 中国移动通信集团公司 | 商业 | 2000.1 |
中国卫星集团互联网(CSNET) | 中国卫星通信集团公司(电信业务并入中国电信) | 商业 | 2000.10 |
中国科技网(CSTNET) | 中国科学院 | 商业 | 1994.4 |
中国教育和科研计算机网(CERNET) | 教育部 | 公益 | 1995.11 |
中国长城互联网(CGWNET) | 中国长城互联网络中心 | 公益 | 2000.1 |
中国国际经济贸易互联网(CIETNET) | 中国国际电子商务中心(对外经济贸易合作部) | 商业 | 2000.1 |
值得注意的是,这些不同的网络彼此相互连接在一起,并和国际Internet连接起来,整体上构成了全球Internet的一个重要组成部分。通常,我们把这些网络服务公司称之为Internet服务提供商(Internet Service Provider,ISP),即向单位和个人提供计算机网络接入服务的公司,他们通常都建立了各自的主干计算机网络。相应的,我们把那些主要以提供网络信息服务的公司称之为Internet信息提供商(Information Content Provider,ICP),如Google搜索引擎站点等。虽然ISP在Internet中的地位非常重要,但是我们要注意到,人们使用Internet的主要目的还是在于获取Internet信息提供商(ICP)所提供的各种信息服务,如我们所要谈到的信息资源查询服务等。
正如国际Internet有相应的管理机构一样,中国的Internet也有自己的国家管理中心。1997年6月,中国科学院计算机网络信息中心组建了中国互联网络信息中心(China Internet Network Information Center,CNNIC),行使中国国家互联网络信息中心的职责。该管理中心的网址为:http://www.cnnic.net,读者可以从中了解很多中国Internet网络管理的相关新闻和政策等信息,其中CNNIC互联网研究中心还提供了大量研究报告和数据资源,网址为:http://research.cnnic.cn,界面如图2. 2所示:
图2. 2 CNNIC互联网研究中心的页面(截取于2010-7)
1.1.3 使用Internet的基本方法
在了解Internet的基本情况以后,我们来了解一下Internet的具体使用方法。虽然我们可能每天都在使用Internet,但是所谓的“上网”究竟是如何进行的呢?其实,理解这个过程对于了解Internet信息检索的实现和原理大有裨益。
我们设想一下,假设在南京财经大学信息工程学院信息管理系实验室,一名信息管理专业的学生打开了面前的一台联网电脑,在浏览器上键入Google的网址,于是打开了Google搜索引擎的主页。即便是这样的一个简单过程,其实包含着许多复杂的处理步骤。
首先,用户在电脑上使用一种被称为浏览器的软件访问Internet,著名浏览器有IE、火狐(FireFox)和傲游浏览器等,甚至Google在2009年也推出了Chrome浏览器[8]。这些浏览器功能虽有差异,但是基本功能都一样。用户只需在浏览器的地址栏上输入需要打开的网站网址,如访问Google可以键入http://www.google.com。通常,我们也把这个网址称之为统一资源定位符(Uniform Resource Locator,URL)。注意三个特点:一是域名不分大小写,通常后续的目录和文件名也不分;二是在输入时可以省略前面的“http://”,但是浏览器最终还会自动加上。值得注意的是,如果把“http://”写成错误的“http://”,多数情况下会自动解析成正确的“http://”;三是URL最后的“/”可以省略,但是浏览器最终也会自动加上,如输入“http://www.baidu.com”,最终显示为“http://www.baidu.com/”。
浏览器收到用户键入的网址后,自己并不能直接理解这个信息,所以首先将此请求网址发送到学校实验室中心的服务器进行解析,同样实验室中心服务器依然解析不了,它会继续将此网址信息转发,到达能够解析此网址的域名服务器。域名服务器可能是位于教育网的其他服务器,它将此网址转换成IP地址。IP地址是真正在Internet上标记一个网站服务器的符号,如南京财经大学的网址为http://www.njue.edu.cn,对应的IP地址为:http://210.28.80.2。显然,IP地址并不好记,而且有时还会变化,倒是网址更便于记忆,但是两者通常一一对应,所以请求的效果一样,用户可以使用上述网址和IP地址来获取同一个南京财经大学的网站主页。
等解析完网址后,此时的用户请求信息才会被真正转发到IP地址对应的目标服务器上,如该学生访问的Google服务器将收到用户的请求信息。这台服务器可能会位于美国计算机网络中,两国通过海底光缆进行Internet网络信息的通信传输。同样,用户自己的IP地址也会被浏览器自动发向Google目标服务器,因此,Google服务器将主页信息按照用户的IP地址,返送给南京财经大学那位同学的计算机浏览器上。浏览器对网页信息进行解析,最终在用户电脑上显示了Google的主页画面。
从Internet的结构来看,上述过程跨越了多个计算机网络,这些网络有些是互相包含的,如中国教育科研网包含了南京财经大学的校园网,而有些网络是彼此独立的,但是互相连接,如中美两国各自的计算机网络通过海底光缆进行连接。
1.2 Internet的信息资源服务
所谓Internet信息资源服务,是指Internet提供的各种信息资源及其访问方法。我们都知道,Internet为我们提供了信息资源的获取平台。而且在通常意义上,我们认为使用搜索引擎和浏览各种网站就是在使用Internet的信息资源服务。然而,我们可能并不知道Internet所提供的信息资源获取方法和服务远非这些方式,事实上,整个Internet始终围绕着能够为用户提供更好更多的信息资源获取方法这个目标而发展,Internet一直都存在着很多其他类型的信息资源服务。
1.2.1 远程登录服务(Telnet)
今天的Internet是个五彩缤纷的世界,而在二十多年前,早期的Internet却是一个黑底白字的字符世界,那时没有鼠标,用户只能通过键盘输入各种指令来完成对网络的访问。Telnet就是一种以字符界面为基础的早期网络访问方式,它也是相应操作程序的名称。通过该程序的运行,用户可以使得本地计算机在网络通讯协议Telnet的支持下暂时成为访问远程计算机的一个终端。通过这些Telnet站点,我们一样可以获取网络信息资源,不过它们的访问方式主要基于字符菜单选择界面,操作不是非常方便。虽然现在已经难以在Internet上看到这种Internet服务,但是有些高校仍然还在使用这种Internet访问方式,毕竟它的速度快,对网络带宽的消耗小,同时也能够提供丰富的文字信息内容,如南京大学小百合telnet网站,网址为telnet://bbs.nju.edu.cn,如图2. 3所示:
图2. 3 南京大学小百合telnet网站的主页(截取于2010-3)
注意,读者可以直接在浏览器地址栏上键入上述网址,也可以在“开始”——“运行”中键入上述网址,都可以打开一个字符界面的网络访问程序。
利用这种服务方式,我们可以快速的获取各种发帖中的文字信息,这种系统也被称为电子公告牌系统(Bulletin Board System,BBS),即让用户留言发帖的网络公告系统,如图2. 4所示:
图2. 4 南京大学小百合telnet网站的用户发帖显示页面(截取于2010-3)
1.2.2 文件传输服务(FTP)
Telnet只能提供文字信息的浏览和获取方法,对于那些诸如歌曲和图片等文件,如何在Internet上进行传输和共享呢?FTP就是一种有效的方式,它的字面意思是文件传输协议(File Transfer Protocol,FTP),其实它定义了不同计算机之间通过网络传送文件的方法,因此我们把这种Internet信息服务称之为FTP服务。类似于Telnet,FTP也是一种实时的联机服务。使用FTP服务时,用户首先要登录到对方的计算机上,但是此时用户只能进行与文件搜索和文件传送等有关的操作。
早期的FTP服务界面仍然基于字符界面,操作方法也是通过各种指令来进行的。但是,FTP服务并没有象Telnet服务那样,逐渐退出了人们的视野,相反在今天的Internet上仍然发挥着重要的作用。通过浏览器看到的界面非常类似于“我的电脑”,不过里面所显示的文件都是对方服务器上的文件,此时用户可以右击文件选择“复制到文件夹”来获取文件,如图2. 5所示:
图2. 5 某FTP站点的显示界面(截取于2007-9)
通常利用FTP服务,人们可以非常方便的获取软件、歌曲和图片等电子文档资源,因此FTP服务是一种重要的Internet文件资源获取方式。不过,由于电子文档版权的原因,不是每个FTP站点都允许用户匿名访问,很多FTP站点都要求用户首先登录,如图2. 6所示:
图2. 6 FTP站点的登录界面(截取于2007-9)
而且,也不是所有的FTP站点都具有允许用户上传文件的功能,大部分FTP站点都只允许用户浏览和下载。
最后,强调两个问题。一是由于浏览器的局限性,利用浏览器访问FTP站点通常都会存在各种各样的困难,所以建议读者使用一些专门的FTP访问软件来访问相关FTP站点,如CuteFTP、FlashFTP等。这些软件不仅可以具有更快更稳定的访问效果,而且还能具有诸如断点续传和多线程访问等特点,从而方便用户访问各种文件资源。如CuteFTP的显示界面如图2. 7所示:
图2. 7 CuteFTP程序的界面
二是虽然FTP站点具有大量的文件资源,但是用户只能通过目录来层层定位所需文件,因此缺乏一种快速有效的搜索方式。我们非常希望可以直接根据用户输入的查询词语来找到含有相关文件的所有FTP站点及其文件所在目录。因此,FTP搜索引擎应运而生,如早期的Archie,现在国外的FileWatcher(网址为:http://www.filewatcher.com)和北京大学的北大天网(网址为:http://e.pku.edu.cn)和天网资源(网址为:http://bingle.pku.edu.cn)等。
我们通常把用户输入的查询词语也称为“关键词(Key Word)”、“查询词(Query Term)”或者“搜索词(Search Word)”等。它们的含义基本相同。
1.2.3 电子邮件服务(E-mail)
收发电子邮件已经成为现代人访问Internet最为常见的行为之一。电子邮件(Electronic Mail)亦称E-mail,从字面理解它是指用户或用户组之间通过计算机网络收发邮件信息的服务。值得注意的是,它也是一种重要的信息资源获取方式。事实上,在早期网络环境中,用户访问网络的机时费相当高,多以上网的时间长短来计费。因此,当时的用户不太可能象今天的用户那样,随意的在网络上搜索自己所需的内容。因此,有些科研资源服务器系统就采用这种以电子邮件为载体的信息资源获取方式,允许用户编写固定格式的电子邮件,并指定用户将其发送到指定信箱。系统收到邮件后,会由程序自动解析出其中的检索要求,并将检索结果再以邮件的方式返回给用户。利用这种方式,不论是用户编写邮件还是阅读邮件,都不会产生网络访问,只有在收发邮件的那一刻才需要访问网络。显然,这是一种非常经济有效的信息资源获取方式。直到今天,还有很多网络查询系统仍在使用这种方式,一般这种服务也被称为“信息推送(Information Pushing)”,如南京图书馆就允许将书目查询信息以电子邮件的方式发送到用户手中,如图2. 8所示:
图2. 8 南京图书馆提供的使用电子邮件接收书目查询信息的操作界面(截取于2010-6)
当然,随着网络技术的普及,今天的人们已经很少再使用电子邮件作为信息获取的途径。不过,一个新的发展动向值得关注,那就是邮件查询服务。传统的电子邮件系统往往采用标准的“收件箱”和“发件箱”之类的目录来层次化的管理用户邮件信息,用户在查询自己所需的邮件时,往往需要大量的浏览和阅读才能定位所需内容。借助搜索引擎的全文检索方法,今天的邮件系统也开始广泛的使用基于关键词的全文邮件查询功能,如Google搜索引擎的电子邮件系统Gmail在2004年就率先提供了类似的服务,并将邮件查询和网页查询很好的结合在一起,如图2. 9所示:
图2. 9 Gmail中的全文邮件查询功能(截取于2010-3)
1.2.4 网络新闻服务(Usenet)
一般意义上的网络新闻服务(Network News)是指网络站点提供各种新闻信息资源的行为,然而这里所指的网络新闻服务(Usenet)是一种特指,它借助一种特殊的网络新闻阅读程序来实现,这种程序并非今天的Web浏览器,它被称为网络新闻阅读器(Network News Reader),它按不同的专题来组织网络新闻信息,并将具有共同爱好的Internet用户连接起来,用户之间可以相互交换意见共享新闻信息,因此该系统相当于一个采用特定格式交换新闻信息的全球电子公告牌系统。在这种网络环境中,每个用户都可以给其他用户提供新闻资源,同时每个用户也可以使用其他用户的资源,我们称这种网络技术为点对点(Peer to Peer,PtoP)技术。
在早期的Unix系统中,有四种比较流行的网络新闻阅读器是rn(在这些新闻阅读器中是最早的一个)、nn、tin和trn。后来的浏览器也开始支持这些网络新闻服务,如IE浏览器工具栏上的“讨论”功能就可以支持这种网络新闻阅读和讨论,如图2. 10所示:
图2. 10 IE浏览器工具栏上的“讨论”功能(截取于2010-3)
虽然我们还能看到类似的服务,但是往往很难使用起来,因为相关的网络新闻服务器多半都已停止服务。现代Internet所提供的Web新闻服务功能更为强大,基于Web网页的网络论坛、门户网站和新闻站点都能够很好的提供图文并茂的新闻服务,而且还允许用户自由发表评论,同时还会提供较为强大的信息查询途径。不过,Usenet所采用的PtoP网络技术,却在以后的网络技术发展中发挥着越来越大的效果,如今天诸如BT等PtoP下载软件,甚至还有基于PtoP的搜索引擎等。
1.2.5 名址服务
名址服务又被称为名录服务,是指利用人们在Internet上已经注册的个人或者机构信息,提供诸如名称和地址等相关信息的一种查询服务。具体的查询内容包括很多,如公司或者个人的邮箱、电话和名称等信息。通常我们把电话号码查询称之为“黄页查询(Yellow Pages Query)”[9],把电子邮箱查询称之为“白页查询(White Pages Query)”。
显然这是一种极为重要的信息资源。早期的Internet提供了大量相关的名址信息查询软件,如Finger、Whois、X.500和NetFind等。其中Finger是一个专门用来查询在Internet主机上已注册用户详细信息的程序,Whois则是另一种类型的白页目录,从中可以获取诸如单位名称和用户电子邮箱等信息。X.500是国标化标准组织ISO曾经制定的目录服务标准,可以给网络用户提供分布式的名录服务。NetFind是一基于动态查询的Internet白页目录服务,它可以查找到含有当前所找人相关信息的计算机。同时,Netfind不仅会查找一个名称和邮件地址,还会找出有关这个人的Finger信息。
然而随着技术的发展,很多早期的名址服务都逐渐退出了人们的视野。但是在某些系统中,我们依然能够看到相关的名址服务仍然沿用这些过去的名称,如图2. 11所示:
图2. 11 InterNIC站点提供的Whois名址服务(截取于2007-9)
不过,虽然这些传统技术已不复存在,现代Internet上的名址服务并没有消失,相反,基于名址查询的网络服务大行其道,在各种社交类站点中扮演着愈来愈重要的角色,如以查询校友信息为主要特点的国内社交站点“校内网”等,甚至一些诸如QQ、MSN等实时通讯类软件也往往提供非常良好的名址查询功能来吸引用户的使用。
1.2.6 文件索引服务
说到文件索引服务,不得不提到前文所说的FTP服务。虽然FTP服务器可以给用户提供大量的文件下载服务,用户可以直接在FTP服务器上浏览并下载所需文件,但是用户要想知道哪个FTP服务器上有自己所需的文件,却是一件非常不容易的事情。为了实现这一目标,人们必须要首先对文件建立索引,再以这个索引来提供相关FTP文件查询服务。所谓文件索引,其实就是一个列表,可以根据文件名称来反查文件所在FTP服务器的位置。
早期的Archie和WAIS就是一些著名的文件索引服务。
如Archie包括两个部分,一个是Archie服务器,它可以跟踪收集世界各地各个主要FTP服务器上的文件信息,另一个是Archie查询软件,用户使用它可以根据文件名称来查找所在的FTP服务器。所以Archie也被称为最早的FTP搜索引擎,当然Archie主要基于字符界面,没有今天的FTP搜索引擎这么强大和方便。
再如WAIS,它是指广域信息服务(Wide Area Information Service),是由三个商业公司Apple、Thinking Machines和Dow Jones共同开发的,其中Apple公司制造了具有图形用户接口的个人计算机,Thinking Machines公司制造了适合快速查询的多处理器服务器,而Dow Jones公司则经营着信息服务业。三者的结合创造了WAIS服务。WAIS服务可以查找文件所在的FTP服务器,和Archie不一样的地方在于,Archie只能根据文件名称来查找,而WAIS还可以根据文件内容来查找,由此我们可以把WAIS看成最早的全文FTP搜索引擎。在Unix系统上最为常见的WAIS程序有swais和waissearch等。
然而,随着FTP在网络上影响力逐渐衰退,这些文件索引服务也逐渐消失了。取而代之的是今天基于Web环境的现代FTP搜索引擎。当然,人们依然能够在某些站点上看到这些传统的服务,如图2. 12所示:
图2. 12 波兰ICM大学提供的Archie查询入口(截取于2007-9)
1.2.7 信息浏览服务
到了20世纪90年代以后,随着网络技术的普及,越来越多的网络信息浏览技术逐渐出现。通过这些技术,用户可以更加方便的获取和使用网络信息资源。同时,这些不同的技术虽然在使用方法上各不一样,但是都努力在易用性方面达到用户的满意。比较著名的有Gopher和WWW。
1)Gopher
Gopher是由美国明尼苏达大学(University of Minnesota)的马克·麦卡希尔(Mark McCahill)于1991年开发的程序,最早的Gopher程序可以运行在Unix系统上,程序的名字就叫Gopher。不像Archie,Gopher只存储普通的文本文件,所以可以提供基于文本内容的查询服务。同时它还具有一种基于菜单驱动的网络信息获取方式。在Gopher程序中,每个菜单项可以是一个文件或者一个目录,沿着目录访问可以继续访问到下级目录或者下级文件。用户在层次性菜单目录的指引下,可以非常方便的获取到自己所需的文件信息资源。和诸如Telnet等其他技术相比,Gopher无需用户掌握太多的指令,因此用户易于上手使用。同时,Gopher内部也集成了FTP等工具,因此可以提供诸如文件获取、信息查询等各种常见信息服务。
不过,随着WWW的出现,Gopher逐渐退出了历史舞台。然而在今天的Internet上,我们仍然可以使用一些尚未关闭的Gopher服务,如“The World”协会提供的Gopher服务,通过网页形式的超链菜单目录,用户仍可以定位到所需的信息内容上,如图2. 13所示:
图2. 13 利用“The World”协会所提供的Gopher服务获取出版社名录信息(截取于2007-9)
2)WWW
说到WWW,可能读者会觉得它非常难以理解。其实,我们现在每天上网访问的网页基本上都是WWW网页。也就是说,现代Internet主要采用了WWW服务方式。那么什么是WWW?从字面上说,WWW是指环球信息网(World Wide Web),也称万维网,有时也被简称为Web。从含义上说,WWW是一种技术,采用该技术的网络文档可以通过一种被称为超文本(Hypertext)的方式来相互链接起来,用户可以通过点击超链的方式来对这些链接起来的文档进行浏览。
我们在阅读书本的时候,通常会发现有时可以不按照章节的先后顺序来阅读,比如通过脚注或者“请参见”之类的提示,便可以直接跳转到所要的内容上。为什么用户在浏览网页时不可以这样呢?这就是超文本。所谓超文本,它是指一种用计算机实现的链接相关文档的结构,通常该链接是一个具有下划线的文本,用户将鼠标移动过去将发现鼠标光标变成一个手的形状,此时点击该文本,便可以跳转到该超文本所链接的新文档中去。当然,用户还可以在被链接的文档中继续访问其他被链接的文档。通常我们也把这种超文本链接简称为“超链”。超链不仅可以链接文字信息,还可以链接诸如图片、音频和视频等多媒体信息资源,所以现代Internet上的网页内容丰富多彩。这种超文本技术和多媒体技术的结合,也被称为超媒体(Hypermedia)技术。
早在1963年,泰德·纳尔逊(Ted Nelson)就发明了“Hypertext”这个词语,并创建了具有简单用户访问界面的网络项目Xanadu。有趣的是,他却非常反感诸如HTML语言之类的复杂网页书写语言。1984年,日内瓦的欧洲核子物理研究中心(CERN)[10]的研究员蒂姆·伯纳斯·李(Tim Berners Lee)实现了超文本技术,他还发明了用于查看WWW网页的Web浏览器和存储WWW网页的Web服务器。他和他发明的世界上第一个Web浏览器如图2. 14所示:
图2. 14 Tim Berners Lee和他在1993年发明的世界上第一个Web浏览器界面
著名的WWW协会也是他于1994年在美国麻省理工学院(MIT)成立的。1991年8月6日,世界上第一个基于超文本访问方式的网站终于建成,网址为:http://info.cern.ch,网站中的网页使用蒂姆•伯纳斯•李发明的超文本标记语言(Hyper Text Markup Language,HTML)来书写。这也是今天人们仍在使用的WWW网页制作方法。所以,人们经常把Internet也称为WWW网络、3W网络和Web网络等,此时的用户也可以被称为Web用户和WWW用户等,这些都说明WWW已经成为现代Internet的信息服务的主要形式。
蒂姆·伯纳斯·李后来还写出一本专门说明WWW网络发展历程的书《编织Web(Weaving the Web)》。读者也可以从WWW协会的站点来了解蒂姆·伯纳斯·李,网址为:http://www.w3.org/People/Berners-Lee。
WWW技术利用超本文将Internet上大量的信息资源相互链接起来,用户只需通过浏览器就可以轻松的访问。而且,超文本网页的编写相当容易,又使得用户数量和他们创建的网页数量都得到了快速的增长。值得注意的一点是,WWW网页与平台无关,无论用户使用什么操作系统,都可以通过浏览器来访问。
最后,我们强调一个问题,那就是WWW具有高度的集成性,它能够把Internet上许多传统服务集成到一起,使用带有不同服务协议前缀的统一资源定位符来分别标识它们,如表2. 3所示:
表2. 3 各种WWW支持的常见服务协议
前缀 | 服务含义 | 示例URL |
http:// | HTTP服务器,主要用于提供超文本信息服务的Web服务器 | http://www.njmars.net |
telnet:// | Telnet服务器,供用户远程登录使用的计算机 | telnet://bbs.nju.edu.cn |
ftp:// | FTP服务器,用于提供各种普通文件和二进制文件的服务器 | ftp://ftp.njue.edu.cn |
mailto:// | 电子邮件服务器 | mailto://leeshuqing@163.com |
gopher:// | Gopher服务器 | gopher://obi.std.com |
news:// | 网络新闻USENET服务器 | |
wais:// | WAIS服务器 |
大家可以尝试一下在浏览器的地址栏上直接键入表中的示例URL,你会发现浏览器会打开不同的Internet服务。同时,我们还可以将这些不同类型的URL嵌入到WWW网页中,使得WWW服务和这些传统信息服务很好的集成在一起。
1.2.8 其它信息服务
随着网络技术的快速发展,Internet上提供的信息资源服务种类也越来越多。实时通讯服务就是一种广受用户欢迎的服务,用户借助这个软件平台可以实时的与其他用户进行文本、图像和音频视频的交流和通信,如腾讯的QQ、微软的MSN和Google的Talk等。通过这个平台,用户可以获取的信息资源将会更多,而且及时性更强,事实上,这些服务也一直在努力把信息资源的易用性体现在自己的产品中,很多都提供了强大的信息查询方法和信息推荐服务。再如虚拟现实技术,它通过三维立体视频和音频效果,可以制造出一个由计算机设计的幻想世界,我们可以想象这种技术会在不长的时间后成熟,它们可以完全颠覆性的改变我们认识和使用Internet信息资源的习惯。
我们能够设想一下,再过十年、二十年,我们该如何获取Internet上的信息资源吗?
[1] The Size of Internet to Double Every 5 Years. http://www.labnol.org/internet/internet-size-to-double-every-5-years/6569/. 2009-12.
[2] 所谓自下而上的结构原则,是指如果下级机构有能力解决所面临的问题,任何中央管理机构都不需要去插手下级机构。即使该下级机构无法有效地解决问题,也应该由其上一级机构协助解决。只有各级机构和组织确定无法有效地解决问题,中央管理机构才需要介入。
[3] ICANN是互联网名称与数字地址分配机构(Internet Corporation for Assigned Names and Numbers)的简称,网址为:http://www.icann.org。
[4] 中国互联网络发展状况统计报告. http://www.cnnic.net.cn/uploadfiles/pdf/2009/1/13/92458.pdf. 2009-12.
[5] 钱天白被誉为“中国上网第一人”,他对Internet在中国的起步和发展做出了卓越贡献,如他代表中国正式在国际互联网络信息中心(InterNIC)的前身DDN-NIC注册登记了中国的顶级域名CN等。
[6] bps是指每秒传输数位数(Bits Per Second),300bps的数值相对比较低,因为今天人们使用的网络宽带可以达到100Mbps左右(1M约等于1000000)。
[7] 张洪斌.融合来了广电怎么办?[N].计算机世界,2010,(5).
[8] Google搜索引擎的Chrome浏览器下载地址为:http://chrome.google.com。
[9] “黄页”是按企业性质和产品类别编排的工商电话号码薄,起源于北美洲,按照惯例用黄色纸张印制,故称黄页。
[10] 欧洲核子物理研究中心(The European Organization for Nuclear Research)之所以简称为CERN,是因为这个简称来源于它的法语单词首字母缩写,即“Conseil Européen pour la Recherche Nucléaire”。