语义网格学习报告

最新推荐文章于 2024-08-12 21:37:19 发布

agilely

最新推荐文章于 2024-08-12 21:37:19 发布

阅读量497

点赞数

分类专栏： web 文章标签：网格 web 工作扩展语言自然语言处理

本文链接：https://blog.csdn.net/agilely/article/details/4974933

版权

web 专栏收录该内容

0 篇文章 0 订阅

订阅专栏

网格是一种信息社会的网络基础设施，是利用互联网把分散在不同地理位置上的多个资源，包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等全面连通和统一分配、管理及协调起来，通过逻辑关系组成一台“虚拟的超级计算机”。这台机器把每一台参与其中的、包括个人电脑在内的计算机都作为自己的一个“节点”，成千上万个这样的“节点”并联起来，就组成了“一张有超级计算能力的网格”。而每一位将自己的计算机连接到网格上的用户，也就“拥有了”这架超级计算机，可以随时随地调用其中的计算和信息资源，在获得一体化信息服务的同时，最大程度地实现资源共享。网格计算模式首先把要计算的数据分割，然后不同节点的计算机可以根据自己的处理能力下载一个或多个数据片断。只要位于某个节点的计算机的用户不使用计算机时，就会调动闲置的计算能力。网格的优势在于不但数据处理能力超强，而且能充分利用网上的闲置处理能力来节约计算成本，实现资源的共享，消除资源孤岛。

现有互联网发展的很快，也开始逐渐暴露出了它的缺陷，如网页功能单调、搜索引擎智能化程度低等，这是因为大部分Web上的内容是设计给人阅读的，是人与机器的交流，而没有机器与机器的交流，没有让计算机程序按其意义进行操作。计算机目前是已经可以熟练地解析网页的版面，知道哪里是标题，哪里是什么格式的字体，哪里有与其他页面的链接。但是，它分辨不出个人主页和天气预报的区别，因为没有可靠的方法来处理其中的语义，没有办法智能地理解网页内容和进行操作。

语义Web的出现就是为了弥补这方面的不足,为网页扩展了计算机可处理的语义信息。语义Web中，各种资源被人为地赋予了各种明确的语义信息，计算机可以分辨和识别这些语义信息，并对其自动进行解释、交换和处理。但是语义Web与人工智能中的语义网络是两个不同的概念，它的研究对象和所采用的方法与传统自然语言处理也是不同的，它对现有的Web进行了语义扩展，从而使其能被计算机做一定的理解和处理，从功能上看它将是一个能够“理解”人类信息的智能网络。将语义Web融入现在Web结构的初步努力已经在进行中了。例如，某人想报名参加一个研讨会，计算机就可自动地为其制定最佳日程和路线以及预定酒店等。

在其体系结构中,第一层是Unicode和URI，它是整个语义Web的基础，Unicode（统一编码）处理资源的编码，URI（统一资源定位器）负责标识资源；第二层是XML＋名空间＋XML模式，用于表示数据的内容和结构；第三层是RDF＋RDF模式，用于描述资源及其类型；第四层是本体词汇，用于描述各种资源之间的联系；第五层是逻辑，在下面四层的基础上进行逻辑推理操作；第六层是验证，根据逻辑陈述进行验证以得出结论；第七层是信任，在用户间建立信任关系。

第二、三、四层是语义Web的关键层，用于表示Web信息的语义，也是现在语义Web研究的热点所在。可扩展标记语言XML (eXtensible Markup Language)让每个人都能创建自己的标签，来对网页或页面的部分文字进行注释。脚本，或者说是程序，可以将这些标签运用到复杂的应用中，不过程序编写者必须知道网页作者是如何使用每一个标签的。简而言之，XML允许用户在文档中加入任意的结构。资源描述框架RDF （Resource Description Framework ）的基本结构是对象-属性-值三元组，也就相当于句子中的主语、动词和宾语。这些三元组可以用XML语法来表示。用这种结构描述由机器处理的大量数据，是非常自然的方法。RDF模式是一个描述RDF资源的属性（Property）和类（Class）的词汇表，提供了关于这些属性和类的层次结构的语义。

因为两个系统可能采用不同的标识符表示同一概念，也可能用一个标识符表示不同的含义，程序若要在两个数据库之间进行信息的比较和合并，就必须了解某些标识符表示的是否是同一事物。对该问题的一个解决方法就是本体论(Ontology)。本体是概念化的显式说明，包括分类和一套推理规则。分类定义对象的类别及其之间的关系，使我们能够表达实体之间的大量关系，而根据推理规则，程序可以进行自动推理。简单地说，就是在不同的系统间定义一本字典或者度量表，使它们对实体及其之间的关系达成共识，以便交流和共享。

语义Web需要能够对Web文档中的术语含义进行形式化描述。DAML+OIL（即DARPA代理标记语言+本体推论语言），OWL（Web本体语言），它们是W3C规范的重要扩充和改进，都是建立在人工智能知识表示基础之上的本体语言，提供了一种自然方式来描述在Web词间的类与子类之间的关系，以及在类与类之间（或子类与子类之间）关系上的限制。它们比RDF模式添加了更多的用于描述属性和类的词汇，例如类之间的不相交性（Disjointness）、等价性、更丰富的属性类型、属性特征等。

当然，要实现语义Web是远远不够的，更主要的技术难题还在于要让电脑可以进行更多的“思考”和“推断”。为使语义Web工作，计算机需要能访问结构化的信息集合以及一套推理规则，据此进行自动推理。增加逻辑性——使用规则去推理，选择行动的方式以及回答问题的方法——是语义Web组织面临的一个任务。

有了大量富含语义信息的网页，就好像有了一个巨大的全球互联的数据库。有了语义信息的帮助，人们开发出的软件代理Agent程序的智能和自动化将大大提高，它们从不同的资源中收集网页内容，搜索和处理信息并和其他程序交换信息，真正发挥语义Web的力量。当出现更多的机器可处理的网页内容和服务（包括更多的代理）时，通过代理之间的信息交换和协同工作，信息处理的效率将呈指数级增长，能更好地满足用户的需求。

网格是Web在计算能力上的提升，而语义网格是网格在语义能力上的扩展；从另一个角度说，语义Web是在现有Web上增强了语义能力，而语义网格是语义Web对计算能力的扩展。把所有的资源，包括服务，都用一种机器可处理的方式来描述，其目标是实现语义的互操作性。达到这个目标的一种实现方法是把语义Web的技术应用到网格计算的开发中，下至基础设施上至网格应用。值得注意的是“语义”是从下到上弥漫在整个网格中而不是仅仅在其上增加了一个语义（知识）层。为了真正实现语义网格，我们需要做的是：

·规范组织。提出资源空间模型和资源的规范化组织和管理的理论、方法、技术和工具，使各种无序资源（信息、知识和服务）规范组织，使用户和服务能够有效、正确地根据语义操作各种资源，以提高资源的使用效率。

·语义互联。通过多层语义互联和单一语义映像，使分布在全球的各种网络资源在语义层上互联，消除资源孤岛，主要通过类型化的语义链网络来使资源的语义能被机器所理解。

·智能聚合。解决如何使资源能够互相理解，根据用户的需求有效、动态、智能地聚合各种资源，这主要通过软设备来实现。

语义网格使用元数据来描述网格中的信息。将信息转化为一些更有意义的东西，而不只是一个数据集合，这意味着要正确理解数据的内容、格式和重要性。

　　语义 Web 就遵循这种模型，即提供其他一些元数据来帮助描述在 Web 页面上显示的信息，这样浏览器、应用程序和用户就能够更好地决定如何处理数据。语义网格对于在网格环境中使用的信息也适用类似的准测。

如果说网格更加侧重于计算的话，语义网格就是更加注重推理、证明、和提供事实。语义网格可以支持元数据，依据本体库的原则构建，这个时候，存贮在机器中的信息就被理解为加上了意义的数据，语义网格将重点考虑知识的获取、使用、检索、发布和维护，从而可以协助人们实现他们的特殊目的和目标。所谓的知识就是为了实现某项目的，在解决问题和作出决定过程中所依据的信息。为了能够充分利用全球的网络资源，访问位于全球分布的且异构的资源，于是语义网格将会涉及了网格的三个基本概念层次：知识、信息、计算和数据。

在这三层中，我认为计算层从时间、发展历史、技术程度上讲是最为成熟的，当然他还缺乏一些必要的支持、还不能实现无缝、广泛和安全的使用系统资源，依然还有待发展。信息服务是在网格中提供资源信息的机制，应该提供可扩充、快速、安全、的服务。资源服务网格的正常工作需要各种网格信息，这些信息包括安全数据、应用需求、资源命名数据和用户配置文件，而所有的这些信息必须要为所需要的服务所理解、解释和使用。资源发现时指给定资源唯一的名字和特征。在不同的资源上的同步与协调的问题。容错与可靠性。在并发异构的环境中需要维护一定级别的数据的一致性。要求能够处理非局部访问的资源。需要使用多种硬件、多种软件的异构。要能够根据服务与应用个数与大小的不同进行扩展，不需要人工的介入。

信息层，虽然有很多技术是目前已经是可以使用而且用的还可以，还有很多方面是需要研究发展的，比如对元数据的创建和管理，对于支持元数据的系统，可以得到多少知识，如何利用这些知识？在协作事件中使用元数据，特别是实时数据，

在语义网格中，数据被赋予了丰富的内容并转换为信息，然后信息被虚拟组织共享和处理，用以打倒特定的目标。这些行为信息形成知识，因此，知识层对于网格计算的发展也相当重要。知识层的目标就是作为一个支持科学管理的应用以达到特定目的和目标的基础设施，为了做到这些，他建立在由数据/计算和知识层提供的服务上。数据网格正在管理的数据数量可能很大，但数据转变成具有意义的信息的时候，会期望数据的容量可以有数量级的减小，因为有太多的信息了，以至于我们都不能有效的展开行动，或者是不能以适当的方式将其应用到特定问题上，一旦一个信心是为了一个特定的目的而传递，我们就已经是在使用知识网格了。所以，在这个层次，我们主要关心抽象和注释的内容，以及科学管理的问题。

对于知识层，我们首先要研究的就是知识的生命周期问题，获取知识的工作首先就是一个挑战，然后还有建模，检索，重用，发布以及维护等等都是很大的挑战。

知识获取的挑战就是我们对周围的信息的抓取。将其转换为知识并将其可用，这包括将潜在的知识明晰化，发现已有信息之间的空白、获取和融合来自不同的来源的知识（比如在不同的系统、来自不同的专家、或者在web上的分布式资源）。或者从没有结构的媒体（自然语言或者图标）获取知识。

针对获取知识的工作近年来也有很多技术和方法的发展，这些工作的绝大部分、都是在试图建立起基于知识或者专家系统的上下文中展开的，这些技术包括了不同的方面，对于专家解决问题不同形式的观察、用专家知识建立概念映射、不同形式的文档和文本分析、以及一系列的机器学习方法。通过运用不同的技术来适应不同形式的知识抽取，并且根据获取和模型化知识所需要的工作不同会有不同的结果。

然而从人类专家那里显示的获取知识是开销很大的过程，是资源密集型的工作。于是我们希望可以（半）自动的引出并获取知识的方法，这些知识一般是隐式的或者是web上分布了的，很多不同的信息抽取工作的方法，他们现在都可以被应用到大型文本文档中。目前在比如知识挖掘、模式匹配方面已经有了很大的成功。

知识建模位于知识获取和知识使用之间，知识模式必须同时作为一个知识获取的直接管理者和表达知识的管理者，所以他可以用于知识的解决，知识表达技术在人工智能方面的历史很久，有很多的语言和方法可以满足不同的知识类型：知识的结构形式，面向处理的表达，基于规则的特征化和对不确定性的建模方法，以及概率表示等等。很多大型应用程序会要求有一系列的知识表达格式。Web上的内容不断膨胀，使得元数据变得重要起来了。这样的语义元数据在我们的建模活动中试一个重要的附加元素，他可以将其他资源和内容联系起来。

而如果在网格上下文中有大量的内容可用，那么就必须要有技术来支持元数据的“丰富”。在这一方面也有相关的研究。

再任何的知识建模实践中，必须明确建模反应了兴趣和观点的集合，这可能会又有的时候比较明显，或者不大明显，但他们总是存在的。模型是不同程度形式化的，还希望具有一定程度的精度和准确度。当然，模型不是对象或者过程，而是根据大脑中特定的意向和目标构建的人工产品。

一旦知识被获取和建模，那么就需要存储或者寄存在某些地方，从而可以有效的检索。一旦知识被存储，那么久有可能会再次使用到他；还有检索与特定问题相关的内容子集的问题。这些会形成一个知识检索系统的特有问题，在该系统中会快速而规则的改变。

知识检索有很多种形式，包括对结构化表示进行编码的各种方法，这里的结构化表示针对的是被检索的内容。不同的匹配算法可以应用于不同的检索情况。其他的检索方法还有要基于对象的统计编码，这些方法可能成为一个向量，表示在一个文档中或者其他内容片段中的属于的频率。检索就是将查询的样本片段和存储表达式进行匹配并产生最接近的匹配。

比如google的搜索引擎就具有很好的扩展性，并且他基于相关度排序的概念，可以表现出很好的检索性能。给出任何要检索的词汇的集合，google根据内容相互联系本质以及他被访问的频率，可以在一定程度上帮助确定和要查找的材料匹配程度的排序。

在一般的内容检索领域中，没有一种主要的模式用于对整个实验配置和随后的运行进行编码。高效的使用知识的一个最大障碍，就是知识构件必须经常进行重新构建，知识很少被重用。这种问题的出现的部分原因，是因为根据将要解决的问题的不同，知识往往需要有不同的表示。我们需要理解如何在知识中寻找模式，并支持他的存储，从而在环境允许的情况下可以对他进行重用。这对于在不同的环境中使用过的知识，可以省去大量的重新获取和重新构造的工作。

获得知识后，对他进行建模并存储，随后的问题是如何将知识传递到随后需要它们的人的手中。知识发布的挑战，可以描述为将正确的知识、以正确的格式、在正确的时间传递给正确的人或者系统。不同的用户和系统会需要将知识以不同的方式进行表现和可视化。这样一种表现的质量不仅仅是个偏好的问题。他可能极大的影响知识的利用。得到正确的表现，涉及理解来自不同代理或者系统的有着不同的需求的人们的不同方面。对知识内容的理解会帮助确认知识的重要相关片段在合适的时候发布出来。

最后，在已经获取知识，建模并成功检索和正确的散步他的情况下，最后一个挑战就是保持现在的知识内容，也就是知识维护。这涉及当知识发生改变的时候，内容的日常更新工作。一些内容可能寿命很长，而其他的可能改变的很快。如果知识要在一段时间内保持可用的话，那么必须知道那一部分的知识点需要更新或者抛弃，以及在什么时候需要执行这些动作。另外一个维护涉及的问题包括核实和确定该内容，并保证他的安全。

agilely

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
语义网格学习报告

网格是一种信息社会的网络基础设施，是利用互联网把分散在不同地理位置上的多个资源，包括计算资源、存储资源、通信资源、软件资源、信息资源、知识资源等全面连通和统一分配、管理及协调起来，通过逻辑关系组成一台“虚拟的超级计算机”。这台机器把每一台参与其中的、包括个人电脑在内的计算机都作为自己的一个“节点”，成千上万个这样的“节点”并联起来，就组成了“一张有超级计算能力的网格”。而每一位将自己的计算机连接到
复制链接

扫一扫