挖掘非结构化文本信息：一种新的机器学习方法

最新推荐文章于 2024-08-15 10:41:38 发布

Hmily1988

最新推荐文章于 2024-08-15 10:41:38 发布

阅读量5.1k

点赞数 2

分类专栏：数据挖掘文章标签：数据挖掘分类非结构化文本

数据挖掘专栏收录该内容

1 篇文章 0 订阅

订阅专栏

本文翻译自：http://www.ai-one.com/2012/02/13/mining-unstructured-text-a-new-machine-learning-approach/

转载请注明出处

我们觉得我们找到了一种通过挖掘非结构化话文本，用于解决特定领域问题的一般机器学习方法。这种方案解决了在知识管理方面的基本问题。

如何从难以描述的问题中找到信息

例如，你想指导两个人在争夺同一个空缺职位时谁更合适。你是通过使用何种属性来作为一个复杂集合（例如一个人？），能让你知道谁更合适？

如果最好的解决方案都潜藏在大量的非结构化信息之后呢？？？

比方说你想要吃个什么药-例如使用带有一定副作用的化学药品区对抗疾病，这种药品可能使用了一种新发现促进代谢方式的方法。你如何在PutMed检索210亿的论文，找出2000种已知的最匹配的复合药物呢？

如果文本信息一直在变呢？

如果你想通过一个人在facebook、twitter或者LinkedIn上说的话来提供个性化营销你将怎么做呢？你首先必须了解他们说话的含义，最精确的方式就是让人们去阅读并解释他们的说话内容，因为人在理解复杂的语言上没有什么问题。但是让电脑这么做却需要其他的方式：机器需要像人类一样学习。他们必须懂得谈话中含义的变化，如何消除其中的歧义，如何确定一个最重要的概念等等。

大数据意味着更大的机遇

这些都是一些大数据问题-但是他们很难解决。找到一个解决方案可以改变很多事情，从我们如何发现新的药品到社交媒体是如何传播信息给我们。

已经有许多试图让机器像人类一样学习的尝试了。人工智能已经大胆预言这个问题将在50年内解决。但是，我们还没有什么有效地方法让机器像人类一样学习和理解。

现在，比起以往任何时候，我们都能通过挖掘非结构化文本信息来找到一些方案。2012年2月，据称互联网已经有6亿1400万个网站。超过了1.8zettabytes(zettabyte = 1024 petabyte , petabyte = 1024terabyte).无数的非结构化文本信息，文章，新闻等都在上面，这些都只是人们通过语言沟通的，而非数字。

非结构化文本并不能像结构化信息那样处理。他需要让知识能够被机器处理并且以表格什么的方式来处理。

知识表示是一个广阔的领域，里面有非常多的工作以及创新要做，难以言表的多。然而，我们仍旧生活在一个绝大多数人（包括每个CIO，开发者和消费者）都不能快速查询信息的世界里。更有甚者，文本数据分析挖掘都是专家们擅长的事情，他们呢使用一些比较难用的工具，有时候很难操作部署（因为这些都需要很高技巧的程序员来做）

我们建立了一个工具集，它可以使得每个程序员简历非结构化文本的数据挖掘工具。

Ai-browser：人机交互原型

在过去的几个月里，我们一直在找一些文本分析和数据挖掘的新方法。想法就是通过建立一个工具，可以让挖掘非结构化数据寻找最佳方案时的人机交互更加高效。

我们现在有了一个工作原型，叫做ai-browser，他可以解决知识管理和挖掘非结构化数据时的一些问题。他结合了自然语言处理（NLP）和模式识别的一些技术做出了一个比较精确地知识表达图。我们组选用了OpenNLP，因为它是开源的，易于上手并且比较个性化，我们使用了Topic-Mapper API，进过分部分预处理后，在文本中检测模式。这个系统同样使得用户使用本体 and/or 引用文章来细化结构。输出就是一个图，可以被第三方以很多方式使用。

提交给查询工具：Google、Bing、Lucene等

分析模型工具：Cytoscape、Matlab、SAS等

用来汇报、知识管理和决策支持的一些企业工具

这个图可以使提问简单化“帮我找到一些像_______?”或者找到一组答案的结果，而不是需要几百万次点击才能出现的结果。

更厉害的是，ai-browser是一个很高效的工具，应用范围非常广泛。

医疗- 医疗决议提供给一些给外科医生，可以让医生能够收到存在电子医疗记录里的更多相关信息，做出更好地判断。包括融合了与分析患者趋势和关系的分析

社交媒体 – 检测更总回话的敏感点（例如twitter），理解顾客的一些信息

创新管理 – 发现信息管理培养出更加高效产出与内部合作的一些方案。

信息比较/校验 – 决定在两个内容资源中的相关性、差异性

人力资源 – 根据工作经验最佳候选人的源头、替换

Ai-browser的动机就是提供给开发者建立提供给客户具体场合一些点。例如，修改系统可以给一下几种场合一些解决方案：

帮助医生决定确诊时是否需要额外的测试

决定一个品牌是否在twitter是如何被理解的

找出通过在PubMed上一些案例的一些使用，并且决定专利相关的一些问题

确定股票市场加以方案，通过比较信息源和一些相关公司和工业的一些问题

通过上网找到一个工作的最合适人选“去年谁干过这些工作”

企业数据挖掘：快速、节约的方式

不像其他的数据挖掘方式，ai-browser通过建立本体可以了解文本信息，一个动态文档在各种数据元素间描述关系。通过提供上下文检测而他们联系的关键词。他描述了关键词和他们提供的上下文之间的联系。这种关键词的结合使得词汇可以协作，例如x是关键词，y是一些特定场合的联系。这些协作创造了一二写文本的本体：G(V,E)，G是图，V是节点。代表每个词汇，E是这些关键词之间的联系