贝叶斯定理公式和香农信息理论

最新推荐文章于 2022-04-02 08:00:00 发布

alexsuncam

最新推荐文章于 2022-04-02 08:00:00 发布

阅读量2.4k

点赞数

分类专栏： Enterprise Search 文章标签：文档语言 hyperlink query xml 服务器

Enterprise Search 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

Intellectual foundation of Autonomy Search

A unique Combination of Technologies: Bayesian inference and Shannon's Information Theory

Autonomy's strength lies in a unique combination of technologies that employs advanced pattern matching techniques, using Bayesian inference and Claude Shannon's principles of information theory. The technology is converted by 15 patents, with multiple patents pending.

Autonomy software identifies the patterns that naturally occur in text, based on the usage and frequency of words or terms that correspond to specific ideas or concepts. Based on the preponderance of one pattern over another in a piece of unstructured information, Autonomy enables computers to understandthat there is X% probablity that a document in question is about a specific subject. In this way, Autonomy is able to extract a document's digital essence and encode the unique "signature" of the concepts, then enable a host of operations to be performed on that text automatically.

For the first time, computers can now be enabled to automatically form an understanding of a page of text, web pages, e-mails, voice, documents and people's interests, and act automatically upon this unstructured content.

The combination of Bayesian Inference and Shannon's Information Theory enables Autonomy to offer the benefits of unique functionality, including automatica clustering of related documents and automatic information delivery and hyperlink of content as well as more traditional short query, or keyword searching.

Bayesian inference

The theoretical underpinings for Autonomy's approach can be traced back to Thomas Bayes, an 18th century English cleric whoes works on mathematical probability were not published until after his death. Bayes' work centered on caculating the probability relationship between multiple variable and determing the extent to which one variable impacts on another.

A typical problem is to judge how relevant a document is to a given query or agent profile. Bayesian theory aids in this caculation by relating this judgement to details that we already know, such as the model of an agent. Extension of the theory go further than relevance information for a given query against a text. Adaptive Probabilistic Concept Modeling (APCM) analyzes the correlation between features found in documents relevant to an agent profile, finding new concept and documents. Concepts important to sets of doucments can be determined, allowing new documents to be accurately classified.

A traditional statistical argument is that if a coin is tossed 100 times and comes up heads every time, it still have a even chance of coming up tails on the next throw. An alternative, Bayesian approach, is to say that 100 consecutive heads are evidence that the coin is not fair, for example, it has heads on both sides. in a similar manner knoledge about the doucments deemed relevance by a user to an agent's profilecan be used in judging the relevance of future documents.

Although no one knows for certain what Baye's original goal was, Bayes' Theorem has become a central tenet of modern statistical probability modeling. By applying comtemporary computational power to the concepts poineered by Bayes, it is now feasible to caculate the relationships between many varialbes quickly and efficiently, allowing software to manipulate concepts.

Shannon's information theory

Information theory is the mathematical foundation for all digital communications system. Claude Shannon's innovation was to discover that "information" could be treated as a qualifiable value in communications. Natural languages contain a high degree of redundancy, or uessential content. For example, a conversation in a noisy room can be understood even when some of the words can not be heard and the essence of a news article can be grasped simply by skimming over the text. information theory provides a framework for extracting the concepts from the redundancy.

Autonomy 是建立在经剑桥大学研究而产生的独特技术组合之上。其优势在于先进的模式匹配技术（非线性自适应数字信号处理），而该技术的根源则是贝叶斯概率论和克劳德?香农的信息论。这一技术能够根据对应于特定概念

Autonomy 是建立在经剑桥大学研究而产生的独特技术组合之上。其优势在于先进的模式匹配技术（非线性自适应数字信号处理），而该技术的根源则是贝叶斯概率论和克劳德?香农的信息论。这一技术能够根据对应于特定概念的字词的使用频率来找出文字中存在的模式。

根据在一段非结构化信息中一种模式超出另一种模式的优势，Autonomy 使计算机能够了解当前的文档有 X% 的可能是关于某个特定的主题。这样，Autonomy 就能提取出文档的本质，并将这些概念的独特标志?编码，从而能够自动地对这段文字进行各种操作。这些操作中还包括了自动对相关文档进行聚类，自动传递信息，为内容提供超链接，以及较为传统的短语查询或关键字搜索功能。

IDOL™ 服务器

Autonomy 软件架构的核心是 IDOL™ 服务器。其功能是作为用于理解信息含义和重要性的平台：用户可以无缝地整合其他的功能以对数据进行高级操作。使用这种即买即用的解决方案，企业可以在不需要手动处理或元数据的情况下，对数字化信息进行快速的自动处理并与多种应用程序进行信息的交换。

Autonomy 的理论基础

Autonomy 独特功能的理论基础可以一直追溯到贝叶斯概率论和克劳德?香农的信息论。

贝叶斯概率论

贝叶斯概率论是统计学中的一个推论，它的名称来源于托马斯?贝叶斯，一名生活在 18 世纪，并且所著的数学著作直到去世后才得以发表的英国牧师。贝叶斯的著作着力于计算多个变量之间的概率关系，以及确定一个变量对另一个变量的影响程度。

它能够解决的一种典型问题是判定某个文档与某个查询或代理档案的相关性。贝叶斯理论通过将判定的过程与已知的详情（例如代理的模型）相结合，从而协助进行计算。当然，这一理论的延伸并不限于确定某个查询与文字之间的相关性情况。此外，自适应概率建模 (Adaptive Probabilistic Concept Modeling, APCM) 算法也被用于对非结构化的信息进行分析、排序以及交叉引用操作。传统的统计学论点认为，如果将一枚硬币抛 100 次，每次都是正面朝上，那么下次抛出时反面朝上的概率仍然相同。而贝叶斯方法认为，100 次连续正面朝上表面该硬币并不正常，例如它两面上都是正面的图案。类似地，被用户判定为与某个代理档案相关的文档可被用来判定其他文档的相关性。

虽然无人知道贝叶斯的初衷是什么，但贝叶斯定理已成为当今统计学概率模型的核心原理。通过将现代的计算能力应用至贝叶斯提出的概念，人们可快速并有效地计算出多个变量之间的关系，进而允许软件对概念进行处理并提取出信息中的含义。

香农信息论

信息论是所有数字通信系统的数学基础。克劳德?香农德的这一创新告诉人们，在通信领域，“信息”是可以作为一种可计算值而加以处理的。

自然语言中含有大量冗余或不必要的内容。例如，在一个吵闹的房间中，即使未听到所有的词，对话双方也能了解对话内容，或者对于新闻而言，只要浏览其中的文字，读者也能抓住其本质。信息论为从冗余中提取概念提供了一个框架。

Autonomy 建立概念模型的方法基于香农理论，即交流单元出现的频率越低，它所表达的信息就越多。因此相对而言，交流中出现次数越少的概念就越能指示其含义。这一理论使得 Autonmy 的软件能够确定文档中最重要（或传递信息最多）的概念。

IDOL™ 的核心特点

独立于语言种类

Autonomy 所基于的高级模式匹配技术（非线性自适应数字信号处理）能够通过高性能的概率建模技术来提取出文档中的要素，从而判定表达文字含义的特征。由于其基础是概率建模技术，因此它不需要任何形式的语言解析操作或是字典。处理字词时，是将其视为抽象的表义符号，并且通过其出现的情况来推导其含义，而不是根据呆板的语法定义来进行。

学习能力

Autonomy 的软件能够持续不断地进化与学习，其原因就是贝叶斯概率论和香农信息论的独特组合。和其他的解决方案相比这种学习能力显著降低了对人工输入的依赖。这意味着企业能够节省大量的时间与金钱。

其他的解决方案需要人工输入新的字词或概念，并告知相应的分类方式，而 Autonomy 能够自动推导出新表义单元的重要程度并将其加入相关的类别中，或是在必要时创建的的类别。

Autonomy 的技术还能够通过动态监控用户查看的内容来了解用户的情况，从而在新的相关内容出现时将其送至用户手中。

不受文件格式限制

Autonomy 能够处理各种数据，其高度可调的组成部分能够自动聚合保存在各种存储库中的超过 300 种不同格式的内容，其中包括语音和视频内容。使用 Autonomy，企业能够最大化地利用其知识资源，快速对包括如下的各种数据源进行访问：

非结构化数据，如 HTML 页面、字处理软件文档、电子表格、电子邮件及诸如语音和视频的富媒体内容

半结构化数据 (XML)

结构化数据，如 Oracle、Lotus Notes 以及符合 ODBC 标准的内容

非结构化查询语言 (Unstructured Query Language, UQL)

UQL 是通过 IDOL 进行查询时使用的语法。它是 Autonomy 产品所独有的。与传统的布尔值搜索语法不同，UQL 非常灵活，支持最为复杂的语法，甚至是用自然语言提出的查询。使用 UQL，用户可以通过 IDOL 查询企业内各存储库中各种形式的数据，包括诸如电子邮件、网页以及音频视频文件这样的非结构化数据。

安全性

在企业内构建安全的应用程序是一个需要进行多方面考虑的问题。互不兼容的标准、种类与数量众多的子系统以及不同的策略相互抵触，而所处的环境也是由不一致的网络和作为基础的硬件组成。Autonomy 的智慧资产保护系统 (Intellectual Asset Protection System, IAS) 从架构的角度来解决企业应用程序的安全性问题。IAS 在每个必要的阶段都规定了安全性策略，而每个单独的安全子系统都明了其在更大范围内所发挥的作用。与之前数据流中几个安全点的情形不同，IAS 保证了部署 Autonomy 技术的企业的整个系统都是安全的。

人工或自动 - 并不是非此即彼

Autonomy 支持多种信息处理方式，其中既有人工方式，也有自动方式。这并非一个非此即彼的选择。如果用户希望使用传统的人工方式来进行信息处理，Autonomy 的技术能够支持这一方式。举例而言，Autonomy 为应用程序管理员提供了一个功能完全的平台以供其对搜索结果的相关度进行控制与调节。此外，Autonomy 处理传统应用程序的能力使得之前在这些应用程序上的投入能够继续产生回报，而其结果也能无缝地与 Autonomy 的自动解决方案向整合。

架构

IDOL™ 服务器具有一个开放式的架构，它与数据完全无关并且是可伸缩的，因而允许大型企业对大量信息进行管理，而无需关心其格式或存储位置。

关联器

通过 Autonomy 提供的关联器，IDOL 能够通过理解信息的内容和对应访问权限来整合 300 个不同存储库中的信息，从而提供一种跨应用程序和跨内容操作能够自动进行的实时环境。

传统方法的局限性

许多公司都声称他们的解决方案能够解决非结构化信息的管理方面的问题，或者他们的技术能够提供个性化的信息服务。但是这些系统或方法都存在严重的局限性，尤其是在可调节性与成本方面。例如：

关键词搜索或布尔值查询

在信息管理方面，最常用的方法是传统的关键词搜索。在这种简单的方法中，用户将某些词语输入一个文本框。接着系统在文档列表中进行搜索，并返回包含这些词语的文档。
协同过滤或群体代理

协同过滤是使计算机通过用户与其他用户之间的相似性而提供个性化建议的方法。其基本原理非常简单：通过让大量用户提供有关其偏好的信息（通常借助表格或复选框）来形成建议。

以下示例阐明了这一基本原理。有三名用户：Mick、Bud和 Brad，系统要求他们挑出最喜欢的三位歌手。

Mick 选择了：
- Elvis
- Buddy Holly
- Little Richard
Bud 选择了：
- Jimi Hendrix
- James Brown
- Aretha Franklin
Brad 选择了：
- Elvis
- Jerry Lee Lewis
- Little Richard
通过协同过滤，计算机比较这些结果，发现 Mick 和 Brad 的选择类似，于是将两人的选择交换以提供建议：“Mick，你可能会喜欢 Jerry Lee Lewis” ；“Brad，你可能会喜欢 Buddy Holly” 。
解析与自然语言分析

近 20 年来，人们采用解析（又称为语义或词汇分析）这一直接的方法来处理非结构化信息。这些方法利用语法与词汇来试图明确地理解文字信息。

例：

猫安静地趴在垫子上 =（猫 = 主语）（趴 = 动词）（安静地 = 副词）（在...上 = 介词）（垫子 = 宾语）。
手动标记

由于企业门户的发展，一个包含了各种信息类型（包括文档、结构化数据、HTML、XML 以及多媒体信息）的目录变得非常重要。因此手动标记作为一种针对数字化信息的标记方法正变得越来越受欢迎。但是要使其能够有效管理信息，还存在一个障碍，那就是成本。

关键词搜索或布尔值查询

在信息管理方面，最常用的方法是传统的关键词搜索。在这种简单的方法中，用户将某些词语输入一个文本框。接着系统在文档列表中进行搜索，并返回包含这些词语的文档。

局限性

无上下文

管理非结构化信息时最常见的方法是使用关键词搜索。搜索方法通常会增加额外的信息。虽然这些方法能找出含有搜索词的文档，但是它们无法得知这些文档与用户关心的主题之间存在多大的相关度。它们只能判断关键词出现与否，而不能判断关键词所表达的含义与文档的主旨是否有关。

除此之外，基于关键词的方法有时会错误地将关键词出现的次数与文档对搜索的相关性相联系。实际情况并不总是如此。例如："有一天晚上我走在一条路上。I这条路又长又黑...等我走完这条路时，有个歹徒对我发动了袭击。” 虽然“路” 出现了很多次，但是这句话实际上描述的是一次犯罪行为。
准确性低

由于关键词的定义和标记依赖于计算机效率低下的语言处理方法，因此产生的结果并不准确，同时其实施与维护成本也较高。对于各行业中存在的非结构化信息问题，这种无法调节的方法是不能作为解决方案而部署的。
手动

关键词引擎本身进行的操作无非是寻找词语，因此在后端处理中需要大量的人力劳动，从而不断地对关键词关联（即“主题” ）进行管理与更新。
用户干预程度高

关键词方法需要最终用户进行大量干预，用复杂而明确的语言（即布尔值形式）编写查询，如 “CD AND (NOT (financial OR money OR invest*) AND music” 。
无学习能力

关键词搜索引擎无法在使用时进行“学习” 。换言之，在无用户干预的前提下，出现查询词“狗”时，它无法了解到用户希望寻找的是有关长毛四足牧羊犬的信息。

此外，用户也无法通过向关键词搜索系统展示一个示例来进行查找。通常，“与...类似” 这样的功能只会将示例文档中出现次数较多的词语归为新的关键词。通常这会使返回文档的数量增多，而用户希望得到更少的文档。

Autonomy 的方法

Autonomy 的概念匹配技术在概念而不是关键词的层次上进行比对，因而避免了这些问题。当然，用户也能用标准的布尔值文本查询进行搜索。

Autonomy 会考虑词语出现在什么样的上下文中。这在消除了无关的搜索结果的同时，还能捕捉到虽然不包含关键词但仍表达相同概念的文档。

手动标记

由于企业门户的发展，一个包含了各种信息类型（包括文档、结构化数据、HTML、XML 以及多媒体信息）的目录变得非常重要。因此手动标记作为一种针对数字化信息的标记方法正变得越来越受欢迎。但是要使其能够有效管理信息，还存在一个障碍，那就是成本。

局限性

描述的不一致性

手动描述信息这一方法（虽然是通过现有的描述进行）中人类行为及其内在限制的一个实例是美国国防部的一条规定所带来的结果，这条规定的内容是负责编写文档的内部人员需要适当地描述文档的内容。这看起来似乎是一条明智而又有实际意义的决定。但是实行几个月后，人们发现大多数文档都被简单地描述并标记为 "General" （一般）。虽然标记方法（尤其是 XML)尝试避免使用这种一般性的用词，但这些方法还是依赖于最终会形成“不一致性” 的人类行为中相同的缺点。人们描述信息的能力依赖于它们个人的经验、知识和看法。这种“无形” 的因素会随着人和环境的变化而编号，从而大幅降低最终结果的效力。

若文章涵盖多个主题，将会带来更多的复杂性。像《变化的对外策略下俄罗斯的科技发展》 这样的文章是应该分在 (i) 俄罗斯的科技、(ii) 俄罗斯的对外策略还是 (iii) 俄罗斯的经济？

这种决策过程不但复杂耗时，同时还会引发新的不一致性，尤其是在用户需要在大量的选项中进行选择时。例如，例如对于一般的报纸主题就存在着 800 种标记，这使得在合理的时间内为基本的主题选出适当的描述也变得非常困难。
概念分离

标记也不能突出主题之间的关系。这被称为“概念分离” 。有些标记不同的主题之间通常存在着重要的关系，例如机翼设计/低阻力与机翼/效率。第一个类别可能包含如何设计机翼以降低空气阻力。第二个类别讨论制造高效机翼的方法。很显然，这两个类别之间存在着一定的重叠，因此用户可能对这两个类别中的内容都感兴趣。但是如果无法理解类别名称的含义，用户将无法在它们之间建立联系。
无法调节

为了保证在对基于标记的文档进行检索与处理时的准确性，就需要有很多的标记。例如，在像 Reuters 这样的公司中就有数万个标记。但是随着标记数量增多，需要进行的劳动以及分类错误的可能性也会增多。
高人工成本

在目录的创建与标记工作中，手动操作仍占主导地位。它需要信息管理员、用户以及 IT 员工输入的信息。这意味着理解信息这一工作需要很高的人工成本。