7.语义网: 更大的数据库还是挑战数据库?

http://blog.csdn.net/mentat/archive/2005/04/15/348375.aspx 

语意网: 更大的数据库还是挑战数据库? 数据库社会课程期末报告1
什么是语意网?2
语意网与数据库的关系3
网页/超文本挑战数据库?4
从历史的角度来看4
从文件与叙事的角度来看6
数据库想象的重组8
数据库表格、个性化、与个人叙事8
个人化 (个性化 personal profile)是好事还是坏事?9
重新回顾Bush的Memex及当今的WWW10
描述领域的型式10
社会力量的增强? 控制的增强?11

自网页技术(Web)发展以来,人们接触信息的方式有些许的改变。网页技术的首
席架构师(architect),网页技术的发明人,Tim Berners-Lee,提出下一代网页
的架构的构想,为语意网(Semantic Web)。若在网页发展之前,我们的社会是
一个数据库社会,那网页发展之后呢? 语意网社会的想象是什么呢? 与数据库社
会的差距为何呢? 为了探讨语意网社会的想象与数据库社会想象的同异之处,本
文会致力于权力、控制、及能动性的讨论。本文主张,语意网的发展,简单说是
同时延续并改变数据库社会的革命(revolution),从一个封闭的控制社会变成一
个开放的观察社会。

什么是语意网? 语意网是种想象,对现有全球网页(Web)及超文本(hypertext)发
展的想象。网页技术的标准制定者,W3C组织,与发明者,Tim Berners-Lee,正
设计着下一代网页架构的标准。在这个想象当中,语意网是现在网页的延伸,而
非另起的炉灶;语意网中的信息有清楚的定义,能够让人与计算机协同工作,而
不同于现有的网页只是一堆待读的电子文件。所谓的「有清楚的定义」,是对信
息有进一步的「描述」(description),而藉由对描述「字汇」(vocabulary)的
语意掌握,让计算机能进一步对信息的处理,摆脱仅是符号比对的旧习。语意网
是改良目前全球网页(Web)及超文本(hypertext)的想象。
这并不意味着现有的网页技术一无可取,相反的,现在的网页技术堪称是伟大的
发明。现有的网页技术,让文件可以彼此互相连结 (以超级链接的方式),让
一般人都可以出版自己的网页,供任何一个人阅读。网页技术的两大主要特性
,可连结(linkablity)与普遍性(universality),造就了现有网页世界的基本架
构。在这个世界里,每份网页是开放的,供每一个人阅读并连结的。

编者加
语意网的定义
「语意网是提供了一个让资料可以跨越应用程序,企业,以及社群藩篱相互分享
与重复使用的共通架构。它由 W3C 所主导,并且有大量的研究人员与业界伙伴
参与这个合作计划。它是以资源描述架构 (RDF) 为基础,整合各种使用 XML
语法,URI 命名规则的应用程序。」

「语意网是目前网际网络的延伸,在语意网里,信息都将会被赋予完善的意义
(well-defined),让点脑与人更合作无间。」-- Tim Berners-Lee, James
Hendler, Ora Lassila, 语意网, 科学美国, 2001 年 5 月。

原文﹕

"The Semantic Web is the representation of data on the World Wide Web.
It is a collaborative effort led by W3C with participation from a
large number of researchers and industrial partners. It is based on
the Resource Description Framework (RDF), which integrates a variety
of applications using XML for syntax and URIs for naming."

"The Semantic Web is an extension of the current web in which
information is given well-defined meaning, better enabling computers
and people to work in cooperation." -- Tim Berners-Lee, James Hendler,
Ora Lassila, The Semantic Web, Scientific American, May 2001

Link:Semantic Web
语意网既然是现有网页技术的延伸,所延续的传承自然是新旧都有。旧的部份
主要在于(1)「现有网页文件标记技术」以及(2)「更早的数据库技术」;新的
部份主要在于将语言符号系统的语意(semantics)加入标记技术,以便计算机
及人类对信息的进一步处理。讨论技术史,得考察其社会发展脉络,而本文会
先针对「现有网页文件标记技术」与「更早的数据库技术」的竞合关系,再立
论语意网的发展想象,是个社会的想象建构。
语意网与数据库的关系
我认为,网页的兴起在形式上及取用上,挑战了数据库的形式与使用,而
语意网的努力是企图让现有的网页技术,能够进一步采用数据库的处理模式。
我之所以会这样认为,可以从Tim Berners-Lee在2001年<<科学美国人>>杂志
文章的开头例子来说明。在这个例子中,一位女儿知道她妈妈需要看专科医生
,并接着要做一些物理治疗疗程,这毎女儿只需要靠自己浏览器的代理人,
从医生那边的计算机代理人取得处方资料,再上网找到服务提供者的列表,
而从中过滤出妈妈保险有的,离家20英哩以内的,评比为佳及优的。然后,
浏览器的代理人会跟符合标准的服务提供者的计算机代理人,排看诊治疗的
时段,比较的是女儿和服务提供者的有空时间。
从这个例子来看,这是个数据库与数据库的数次交换运用,但这个想象和
以往数据库使用不同。数据库的使用,通常是跟着一个组织的,而跨组织
的数据库比对使用,常常不是从『个人』的需求出发,而是要找到『个人』
为终点。以往数据库使用,尤其是以政府或企业的角度出发,是定位一个人
的记录,而现在的数据库,尤其随着网页技术发展及使用普及,似乎以
『个人化』为前题。尽管如此,如同本文将讨论的,这并不意谓着组织的
控制退出,让给个人的自由,这是种权力控制的改变。

这个由Tim Berners-Lee提的例子,现有的网页技术当然做不到,但这个
做不到的本身,代表了一个距离,一个现有网页技术与数据库技术的距离。
让我们暂时先把新科技的允诺放一旁,这个例子的需求,是可以由现有的
数据库技术达成,差别在于这些分属于不同组织及个人的数据库要能彼此
交换资料,而且要有一个比对程序对这些资料做处理。然而,这样处理模式
,现实上不可行的原因在于,数据库的整合与交换是个难题,再者,程序
的要求可能随时不同,不同的数据库不同的格式不同的需求都需要不同的
程序来处理,这是数据库长久以来的问题。

所以我认为,观察当今语意网技术的发展,有一股力量是想借着网页技术
的普遍性(universality) 与可连结(linkablity),来处理数据库交换、
整合的问题,这股力量虽然是从数据库出发,但也面临资料开放的网页基
本特性。而用来处理数据库交换及整合的技术,主要是来自于语言学的传
统与技术的语意学,这带入了语言及上下文的复杂度,也正在将数据库以
『表格』为主的型式,带往『图』(graph)与『树』(tree)的连结型式。
这些型式的转变,配合我个人对网络使用的经验与观察,我发现一种更开放
的、更具监视性的、权力更渗透的转变。尽管网际网络的发展,常放在自由
放任主义(libertarians)与政府企业的管制的脉络之下,我发现Foucault
的微观权力学有助于厘清一些概念。最重要的一点,从数据库到语意网的走
向,说明了「沉重严密的纪律被分解,变成可转换、可调节的、灵活的控制
方法」。从资料格式的使用、转变、及应用的细节考察,我们可以发现,
若数据库社会象征的是组织的封闭的官僚管理,那么网页象征的是弹性化的
、开放的控制管理,而语意网的走向与未来,则是这两种控制形式的交流
及交战。
这也是为什么,语意网可以被视为一种全球连结的数据库,但是是和以往不
太相同的数据库。
这样的转变,可以从网页/超文本做为挑战数据库的历史开始。
网页/超文本挑战数据库?
从历史的角度来看
请允许我用较戏剧的方式,将发生在二次世界大战前后的两个历史事件摆在
一起,来考古网页/超文本与数据库的不同但彼此有影响的发展脉络。
早在二次世界大战开打前,美国企业IBM (国际商务机器公司) 就有提供纳粹
德国处理打孔卡片资料的技术,而这个过去,有不少人认为成为纳粹德国后来
集体迫害犹太人的官僚技术基础。数据库的资料收集及分类在此历史事件
中彰显的是国家力量的「分类」(classification)控制。
二次世界大战后,美国一位科学家Vannevar Bush提出一个记忆机 (Memex)
的想象,这个想象开创了现有超文本技术及未来语意网的可能,本文同意
Andy van Dam的看法,认为Bush的记忆机 (Memex)想象重要性不在于其是
否能预测未来,而是这个想象,直接与间接地影响当今网页(web)超文本
(hypertext)发展。
我对Vannevar Bush的记忆机 (Memex)的提出背景有以下的解读:在二次
世界大战后,科学家们的协同研究与发展,将不会像在战争其间一样,
因国家的战争需求而紧密结合。Bush的记忆机 (Memex),是科学家及研究
者的文件数据库,除了允许「储存」(store) 研究者所需的文件资料及笔记
心得外,还能将研究者及文件、研究者与研究者之间「路痕」(trail)记录
起来。
也因此Vannevar Bush的记忆机 (Memex),有像数据库及不像数据库的地方。
在储存的功能方面,是像数据库,但存的是研究者个人的文件,这一点和
织收集的记录有点差距。最不像数据库的地方可以算是「路痕」(trail)
记录了,而这一点正是当今网页/超文本的「连结」(link) 前身。不管是
Bush口中的「路痕」(trail)还是我们现在说的超本本的 「连结」(link)
,依赖的是人们对意义的联想(associative)标志(mark up)。
Leslie Carr(2000?)回顾这五十年来的发展,提供了一个有趣的比较。Carr突出
Bush的「路痕」(trail) 的联想(associative)观念,认为Bush的主张是
要让研究者能将来自不同的研究领域、不同组织型态、不同出版商的文
件,连/联 在一起。Carr在此将Bush的记忆机 (Memex)与H.G. Wells
(1937)在二次世界大战前,所提出的「永久世界百科」(Permanent
World Encyclopaedia),做出对比。虽然和Bush一样,倡议用微缩影片
(microfilm)做为储存设备,但两者的世界观及解决方法不同。Carr认为
,Wells看到的是碎裂的学术组织,倡议一个全球的贮藏处,来做储存
、分类、及索引 (store, classify, and index),而Bush看到的是
碎裂的学术知识,倡议一个从个人记忆代理机器,来做储存、回想、
及再组合 (store, recall, and recombine)。Carr提供的比较不仅仅
是功能性的比较,还是对数据库组织 (甚至是组织的组织方式) 的差
异看待。在Carr眼中,Wells的决解方案为收藏(collection)、层级(
hierarchy)、及索引(index),但Carr眼中的Bush是要用个人的「路痕」
(trail)来超越这些组织的建构。
也是从以上的讨论,Carr认为当今的网页网络(WWW),在许多方面比
较像H.G. Wells (1937)的「永久世界百科」(Permanent World
Encyclopaedia),而不像Vannevar Bush的记忆机 (Memex)。Carr
认为当今的网页网络(WWW)充满外显、含蓄的组织层级、分类、
及索引系统,而连结在其中的角色则较为尴尬。本文也同意Carr
对网页网络(WWW)的观察,当今被认可为主流的建构方式,是层级
(hierarchy)的展示、由后端数据库支持资料,而将超文本的连结能力
做为额外特别的航行。
从历史发展来看,网页网络(WWW)对数据库的挑战可以简化成个人的
联想连结与组织的层级分类的拉拒。而连结的存在,突显了这两种
思维的紧张关系。
从文件与叙事的角度来看
从连结的有无,来看网页网络(WWW)与数据库的差距其实不够,
Lev Manovich将叙事(narrative)与数据库的概念做比较,提供了另外
一种角度,以下我会引入并批评这样的说法,提出一个厘清「数据库」
做为概念词的讨论。
在〈数据库作为象征形式〉一章中,Manovich认为计算机时代的新
媒体(new media)对象,偏爱数据库的形式,而非传统的叙事形式。
在谈Manovich将数据库与叙事放在一起讨论的方式之前,我们先记
得Carr诠释数据库与记忆机(Memex)的差异在于个人的联想连结与
组织的层级分类。换句话说,联想(assoicative)与个人(personal)
是Carr用以改进数据库的层级分类(hierarchical classification)及数据库由组织所独占的问题。Manovich的出发点
则不太一样,Manovich是从现有的新媒体创作形式中,嗅出数据库
的逻辑 (Database Logic)。
Manovich口中说的数据库 (Database)定义较广,也稍微区分了计算
机科学领域与使用者观点的不同。在计算机科学领域中,资料组织
模型观点,数据库可能有阶层的、网络的、关连的、对象导向的型
别(types);而使用者所见的数据库则是项目的集合 (a collections
of items),使用者可以观看、航行、搜寻。从此务实的出发点,
让Manovich想要探讨这样的使用方式,和原来的仰赖叙事模式的
阅读有何差异。Manovich更进一步接续美史学家Ervin Panofsky
对「线性观点」做为现代的象征形式( symbolic form of the
moderan age),主张「数据库」做为计算机时代的新象征形式。
Manovich的主张不无问题 (比如说他没有处理数据库组织化s
tructured与网络网页Web的没组织的差异),但其将叙事与数据库
的比较来说,倒是个有趣的起点。
Manovich认为,做为文化形式,数据库的世界是项目的列表而
拒绝排序 (这点可以有不少的争论) ,而相较之下,叙事则创造
了一种困果的轨道(trajectory),将看来没序列的项目整里出来。
也因此,这两种形式,在Manovich眼中是天生的敌人。Manovich
将计算机游戏的角色突出,认为计算机游戏仰赖叙事 (虽然是比较
像计算机算法的叙事) ,不同于CD-ROM或网站等,仰赖像数据库
的组织方式 (相对地对应到数据结构)。更进一步,Manovich主张,
媒体对象实际上全是数据库,不论表面上是否遵循数据库逻辑,
而新媒体的作品对象,可以视为近用数据库的接口建构
( the construction of an interface to database)。这种接口是
计算机时代说故事的方式,当数据库成为创意过程的中心。
尽管Manovich突出了数据库的角色,但并不是任意的数据库记录的
排列就可以构成叙事,Manovich认为需要更多的元素,光是加上记录
之间的连结(links)不够。也因此,Manovich推论,一般说法认为使
用者只要创造出不同的路径,就能建构出其独特的叙事,是种错误
的假设。
Manovich的贡献在于突显数据库的角色,尤其在数据库/叙事的语言
配对中,数据库是无记号的(unmarked as in Semiotics)。Manovich
一步发展其数据库的符号学,认为突显的常是实际叙事,而非数据库
资料的选取。Manovich对连结就能提供互动(interaction)的说法,
从而提出批判。然而Manovich跳跃式地将数据库看成一种创作的想象
,和叙事做为对立,早在希腊时代就存在,因为他认为希腊有史诗般
的叙事,有数据库式的百科全书。这概念的转变,让Manovich 过度
诠释数据库为创作素材的集合,进而几乎推翻其突显计算机时代的数
据库重要角色的主张。
数据库想象的重组
从Manovich的数据库逻辑主张来看,挑战了个人 (不管是使用者或设
计者)所做的联想连结必然产生叙事的说法。从Carr突显联想连结的
观点,挑战了数据库层级与分类的基本倾向。Manovich与Carr对数据
库的想象的确有所不同,以下我想从Focault的表格概念,来区分数
据库与连结叙事(link narrative)的差别。
数据库表格、个性化、与个人叙事
因此,纪律的第一个重大运作就是制订「活物表」(tableaux vivants)
,把无益或有害的乌合之众变成有秩序的多元体。制订「表格」是
18世纪科学的、政治的和经济的技术所面临的重大问题之一…在18世纪
,表格既是一种权力技术,又是一种知识规则。它关系到如何组织复杂
事物、获得一种涵盖和控制这种复杂事物的工具的问题, 关系到如何
给复杂事物一种“秩序”的问题。
Focault
若将数据库的历史,不要追溯到Manovich提及的希腊时代就有的百科
全书,而是Focault看到的「表格」。 表格,照Focault的说法,同时
是一种权力技术也是知识规则,其存在为的是要使复杂的事物获得秩序
。Focault的说法很能解释从十八世纪一直到二次世界大战国家动员的
计算性权力,如同IBM为纳粹德国所做的打孔索引系统类似,是个大型的
、以「国家」或「市场」为单位所做的数据库表格,在这个表格中,个
人通常是一笔资料(record),而分层的、持续的、切实的监督展现在数
据库的拥有权及操纵权上,Focault称之为文件领域,或者叫记录领域
。在这由一大批文件限定人们的领域中,所谓的「个人」符码及特征
编码逐渐确立,也确立个人在权力关系中的「形式化」。对Focault来
说,是检查的需要将个体引入文件领域,而我们正进入无穷尽的检查
和被迫客体化时代。
个人化 (个性化 personal profile)是好事还是坏事?
个人化,在Focault 看到的规训制度中,是一种坏事。Focault 区分君
权时期及现代规训制度中个人化的意义差别,在君权时期,个人化是
「上升」的,文学记载、留芳百代、姓氏和家谱、等等,说明了权力
愈高才能有个人化;相反的,在现代规训制度中,权力的行使不是盛
大权式也不是纪念性文字,而是一种下降的「个人化」。因此,
Focault 会说,「在一个规训制度中,儿童比成年人更个人化,病人
比健康人更个人化,疯人和罪犯比正常人和守法者更个人化」。
也许我们应把Focault 的说法重心,从个人化的比较转移到权力的彰
显变隐蔽的事情上。个人化之所以变的下降,主要的是权力行使变的
隐蔽、隐在由市场及国家所拥有的大批文件所组成的描述领域当中。
这也难怪数据库的发展与使用历史,和市场及国家的主要玩家有极
密切的关系。
重新回顾Bush的Memex及当今的WWW
Vannevar Bush的记忆机 (Memex)想象,的的确确是应放在二次世界
大战后,Bush做为一个科学家的想象。Bush的「路痕」(trail) 的联想
(associative)观念,以及其从个人出发的观点,可以先理解为一种
科学家对协同工作的可能。这时「个人化」指的对像是研究者,这个
角色可以是国家要求科学家成效的一种监控及观察 (这是Bush完全没
有提及的),也可以是将文件个人化甚至公共化的一种要求,如Bush
在里面强调的,一些文件资料,尤其是百科全书,应该能以微缩影片
低价的方式让个人拥有并发展其研究的「路痕」。
这时我们再借用并稍加批评Focault的「描述领域」概念,能更理解
这样的转变。首先,我们可以记忆机的出现视为更无所不在的监控,
因为科学家或研究者不仅仅要产生出研究成果,更要求记录甚至公开
研究的过程,正如同Focault认为,这样的过程是个规训的过程,
而描述不是为了提供未来回忆的纪念碑,而只是不时之需的文件。
再来,我们进一步强调记忆机的出现是另一种个人控制的技艺,
甚至到了一种无所不在的内化境界。
然而,Focault的立论,在权力与描述领域方面的观察,虽然有其
创见,但似乎泯灭了诠释价值的差异。就算在现代,一位名人的
回忆录和一位无名小卒的身家资料仍有很大的差距,而这样的差距
不是单单以描述领域的概念可以解释的。似乎能成为叙事的故事,
和成为资料的记录,在社会文化价值上仍有不小的差距,虽然两者
都有控制的监视,但用来做为规训方法完全颠倒了「可描述」的标
准是有问题的。
描述领域的型式
也许描述领域的型式有其阶层之分。描述做为监控的权力形式在
个人化之中,被描述的与描述的个体也持续扩大当中,然而这样
扩大的过程,有人会说这是一种民主化,有人会说这是一种无所
不在的监控,(或者民主就是一种无所不在的监控),但最主要应
该观察的是,在这扩大的过程之中,权力形式与描述领域的区分
与阶层化。
WWW的发展,其网页技术的两大主要特性,普遍性(universality)
与可连结(linkablity),就分属于不同的描述领域。普遍性企图
开放原来封闭的,由企业及国家拥有的数据库同时,一方面也让
原来僵硬的大型的数据库形式变的更灵活、更分散、更易交换的
形式。这让我们想起Focault所描绘的监狱到全景敞视主义,国家
型资本主义到流动的资本主义的转变。普遍性可以说是原有描述
领域的重组及灵活整合,这说明了在1990年代新经济起飞时对WWW
的想象。网页技术的可连结(linkablity)也因此不如普遍性
(universality)来受到重视,因为WWW的一般想象,被视为一个
大数据库或全球的文件储存所在,要一直到网络日志(weblog)
的发展,网页技术的可连结(linkablity)才有像Bush在记忆机所
强调的,有联想的、有走过的路径的可能。
社会力量的增强? 控制的增强?
在新闻及软件的领域,我们可以看到记录与叙事的拉拒,而我们
可以假定,社会力量的增加与控制力量的增强同义,一如同Bush与
科学研究者社群的关系。然而这样的控制,在描述领域上,我们
可以观察到一种从表格记录的组织偏好,转向到故事叙事的个人
偏好。近年来兴起的开放编辑 (open journalism) 与自由软件铸
造场的监视力量,正是一种更具弹性的控制及生产力量,其表现
形式通常是更具弹性及连结及开放能力的网页连结形式,而不同
于传统的封闭的数据库。
这时我们更能理解,为何WWW的发明人Tim Berners-Lee强调未来
的语意网做为「具创造力的社会机器」(creative social machine)
的涵意,此处的创造力包涵了两种可能,一种是社会监控的现代
技艺,这是承袭了更普遍的自我监控,另一种则是个人叙事的
创意需求,这和早先组织要求效率的数据库记录有所不同。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值