挖掘非结构化文本信息:一种新的机器学习方法

本文翻译自:http://www.ai-one.com/2012/02/13/mining-unstructured-text-a-new-machine-learning-approach/

转载请注明出处


          我们觉得我们找到了一种通过挖掘非结构化话文本,用于解决特定领域问题的一般机器学习方法。这种方案解决了在知识管理方面的基本问题。

如何从难以描述的问题中找到信息

        例如,你想指导两个人在争夺同一个空缺职位时谁更合适。你是通过使用何种属性来作为一个复杂集合(例如一个人?),能让你知道谁更合适?

 

如果最好的解决方案都潜藏在大量的非结构化信息之后呢??? 

        比方说你想要吃个什么药-例如使用带有一定副作用的化学药品区对抗疾病,这种药品可能使用了一种新发现促进代谢方式的方法。你如何在PutMed检索210亿的论文,找出2000种已知的最匹配的复合药物呢?

 

如果文本信息一直在变呢?

       如果你想通过一个人在facebook、twitter或者LinkedIn上说的话来提供个性化营销你将怎么做呢?你首先必须了解他们说话的含义,最精确的方式就是让人们去阅读并解释他们的说话内容,因为人在理解复杂的语言上没有什么问题。但是让电脑这么做却需要其他的方式:机器需要像人类一样学习。他们必须懂得谈话中含义的变化,如何消除其中的歧义,如何确定一个最重要的概念等等。

 

大数据意味着更大的机遇

         这些都是一些大数据问题-但是他们很难解决。找到一个解决方案可以改变很多事情,从我们如何发现新的药品到社交媒体是如何传播信息给我们。

已经有许多试图让机器像人类一样学习的尝试了。人工智能已经大胆预言这个问题将在50年内解决。但是,我们还没有什么有效地方法让机器像人类一样学习和理解。


         现在,比起以往任何时候,我们都能通过挖掘非结构化文本信息来找到一些方案。2012年2月,据称互联网已经有6亿1400万个网站。超过了1.8zettabytes(zettabyte = 1024 petabyte , petabyte = 1024terabyte).无数的非结构化文本信息,文章,新闻等都在上面,这些都只是人们通过语言沟通的,而非数字。

        非结构化文本并不能像结构化信息那样处理。他需要让知识能够被机器处理并且以表格什么的方式来处理。

        知识表示是一个广阔的领域,里面有非常多的工作以及创新要做,难以言表的多。然而,我们仍旧生活在一个绝大多数人(包括每个CIO,开发者和消费者)都不能快速查询信息的世界里。更有甚者,文本数据分析挖掘都是专家们擅长的事情,他们呢使用一些比较难用的工具,有时候很难操作部署(因为这些都需要很高技巧的程序员来做)

我们建立了一个工具集,它可以使得每个程序员简历非结构化文本的数据挖掘工具。

 

Ai-browser:人机交互原型

        在过去的几个月里,我们一直在找一些文本分析和数据挖掘的新方法。想法就是通过建立一个工具,可以让挖掘非结构化数据寻找最佳方案时的人机交互更加高效。

我们现在有了一个工作原型,叫做ai-browser,他可以解决知识管理和挖掘非结构化数据时的一些问题。他结合了自然语言处理(NLP)和模式识别的一些技术做出了一个比较精确地知识表达图。我们组选用了OpenNLP,因为它是开源的,易于上手并且比较个性化,我们使用了Topic-Mapper API,进过分部分预处理后,在文本中检测模式。这个系统同样使得用户使用本体 and/or 引用文章来细化结构。输出就是一个图,可以被第三方以很多方式使用。

提交给查询工具:Google、Bing、Lucene等

分析模型工具:Cytoscape、Matlab、SAS等

用来汇报、知识管理和决策支持的一些企业工具

这个图可以使提问简单化“帮我找到一些像_______?”或者找到一组答案的结果,而不是需要几百万次点击才能出现的结果。

更厉害的是,ai-browser是一个很高效的工具,应用范围非常广泛。

         医疗- 医疗决议提供给一些给外科医生,可以让医生能够收到存在电子医疗记录里的更多相关信息,做出更好地判断。包括融合了与分析患者趋势和关系的分析

社交媒体 – 检测更总回话的敏感点(例如twitter),理解顾客的一些信息

创新管理 – 发现信息管理培养出更加高效产出与内部合作的一些方案。

信息比较/校验 – 决定在两个内容资源中的相关性、差异性

人力资源 – 根据工作经验最佳候选人的源头、替换

Ai-browser的动机就是提供给开发者建立提供给客户具体场合一些点。例如,修改系统可以给一下几种场合一些解决方案:

         帮助医生决定确诊时是否需要额外的测试

         决定一个品牌是否在twitter是如何被理解的

         找出通过在PubMed上一些案例的一些使用,并且决定专利相关的一些问题

         确定股票市场加以方案,通过比较信息源和一些相关公司和工业的一些问题

         通过上网找到一个工作的最合适人选“去年谁干过这些工作”

 

企业数据挖掘:快速、节约的方式

不像其他的数据挖掘方式,ai-browser通过建立本体可以了解文本信息,一个动态文档在各种数据元素间描述关系。通过提供上下文检测而他们联系的关键词。他描述了关键词和他们提供的上下文之间的联系。这种关键词的结合使得词汇可以协作,例如x是关键词,y是一些特定场合的联系。这些协作创造了一二写文本的本体:G(V,E),G是图,V是节点。代表每个词汇,E是这些关键词之间的联系


我们把这个图叫“all-fingerprint”(全指纹)。它是一个知识表示模型。他通过展示上下文词汇和聚簇的概念来捕捉文本中词汇的意义。这是无损的一种方案因为他捕捉了直接连接图直接的关系-因此展示了每个词的意义,也可能出现了一次,但是对于一个大型复杂的文本集确是一个关键。

Ai-browser通过在REST中使用XGMML表达出全指纹信息。这个可以使得他适应各种动态数据,因此他可以根据文本变化动态改变(例如社交信息种子)

 

联系Olin Hyde来要一个ai-browser的调用。源代码开放给所有程序员,并且可以修改它来解决具体问题。


微博请加:杜龙_hmily

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值