本文翻译自:http://www.ai-one.com/2012/02/13/mining-unstructured-text-a-new-machine-learning-approach/
转载请注明出处
我们觉得我们找到了一种通过挖掘非结构化话文本,用于解决特定领域问题的一般机器学习方法。这种方案解决了在知识管理方面的基本问题。
如何从难以描述的问题中找到信息
例如,你想指导两个人在争夺同一个空缺职位时谁更合适。你是通过使用何种属性来作为一个复杂集合(例如一个人?),能让你知道谁更合适?
如果最好的解决方案都潜藏在大量的非结构化信息之后呢???
比方说你想要吃个什么药-例如使用带有一定副作用的化学药品区对抗疾病,这种药品可能使用了一种新发现促进代谢方式的方法。你如何在PutMed检索210亿的论文,找出2000种已知的最匹配的复合药物呢?
如果文本信息一直在变呢?
如果你想通过一个人在facebook、twitter或者LinkedIn上说的话来提供个性化营销你将怎么做呢?你首先必须了解他们说话的含义,最精确的方式就是让人们去阅读并解释他们的说话内容,因为人在理解复杂的语言上没有什么问题。但是让电脑这么做却需要其他的方式:机器需要像人类一样学习。他们必须懂得谈话中含义的变化,如何消除其中的歧义,如何确定一个最重要的概念等等。
大数据意味着更大的机遇
这些都是一些大数据问题-但是他们很难解决。找到一个解决方案可以改变很多事情,从我们如何发现新的药品到社交媒体是如何传播信息给我们。
已经有许多试图让机器像人类一样学习的尝试了。人工智能已经大胆预言这个问题将在50年内解决。但是,我们还没有什么有效地方法让机器像人类一样学习和理解。
现在,比起以往任何时候,我们都能通过挖掘非结构化文本信息来找到一些方案。2012年2月,据称互联网已经有6亿1400万个网站。超过了1.8zettabytes(zettabyte = 1024 petabyte , petabyte = 1024terabyte).无数的非结构化文本信息,文章,新闻等都在上面,这些都只是人们通过语言沟通的,而非数字。
非结构化文本并不能像结构化信息那样处理。他需要让知识能够被机器处理并且以表格什么的方式来处理。
知识表示是一个广阔的领域,里面有非常多的工作以及创新要做,难以言表的多。然而,我们仍旧生活在一个绝大多数人(包括每个CIO,开发者和消费者)都不能快速查询信息的世界里。更有甚者,文本数据分析挖掘都是专家们擅长的事情,他们呢使用一些比较难用的工具,有时候很难操作部署(因为这些都需要很高技巧的程序员来做)
我们建立了一个工具集,它可以使得每个程序员简历非结构化文本的数据挖掘工具。
Ai-browser:人机交互原型
在过去的几个月里,我们一直在找一些文本分析和数据挖掘的新方法。想法就是通过建立一个工具,可以让挖掘非结构化数据寻找最佳方案时的人机交互更加高效。
我们现在有了一个工作原型,叫做ai-browser,他可以解决知识管理和挖掘非结构化数据时的一些问题。他结合了自然语言处理(NLP)和模式识别的一些技术做出了一个比较精确地知识表达图。我们组选用了OpenNLP,因为它是开源的,易于上手并且比较个性化,我们使用了Topic-Mapper API,进过分部分预处理后,在文本中检测模式。这个系统同样使得用户使用本体 and/or 引用文章来细化结构。输出就是一个图,可以被第三方以很多方式使用。
提交给查询工具:Google、Bing、Lucene等
分析模型工具:Cytoscape、Matlab、SAS等
用来汇报、知识管理和决策支持的一些企业工具
这个图可以使提问简单化“帮我找到一些像_______?”或者找到一组答案的结果,而不是需要几百万次点击才能出现的结果。
更厉害的是,ai-browser是一个很高效的工具,应用范围非常广泛。
医疗- 医疗决议提供给一些给外科医生,可以让医生能够收到存在电子医疗记录里的更多相关信息,做出更好地判断。包括融合了与分析患者趋势和关系的分析
社交媒体 – 检测更总回话的敏感点(例如twitter),理解顾客的一些信息
创新管理 – 发现信息管理培养出更加高效产出与内部合作的一些方案。
信息比较/校验 – 决定在两个内容资源中的相关性、差异性
人力资源 – 根据工作经验最佳候选人的源头、替换
Ai-browser的动机就是提供给开发者建立提供给客户具体场合一些点。例如,修改系统可以给一下几种场合一些解决方案:
帮助医生决定确诊时是否需要额外的测试
决定一个品牌是否在twitter是如何被理解的
找出通过在PubMed上一些案例的一些使用,并且决定专利相关的一些问题
确定股票市场加以方案,通过比较信息源和一些相关公司和工业的一些问题
通过上网找到一个工作的最合适人选“去年谁干过这些工作”
企业数据挖掘:快速、节约的方式
不像其他的数据挖掘方式,ai-browser通过建立本体可以了解文本信息,一个动态文档在各种数据元素间描述关系。通过提供上下文检测而他们联系的关键词。他描述了关键词和他们提供的上下文之间的联系。这种关键词的结合使得词汇可以协作,例如x是关键词,y是一些特定场合的联系。这些协作创造了一二写文本的本体:G(V,E),G是图,V是节点。代表每个词汇,E是这些关键词之间的联系
我们把这个图叫“all-fingerprint”(全指纹)。它是一个知识表示模型。他通过展示上下文词汇和聚簇的概念来捕捉文本中词汇的意义。这是无损的一种方案因为他捕捉了直接连接图直接的关系-因此展示了每个词的意义,也可能出现了一次,但是对于一个大型复杂的文本集确是一个关键。
Ai-browser通过在REST中使用XGMML表达出全指纹信息。这个可以使得他适应各种动态数据,因此他可以根据文本变化动态改变(例如社交信息种子)
联系Olin Hyde来要一个ai-browser的调用。源代码开放给所有程序员,并且可以修改它来解决具体问题。
微博请加:杜龙_hmily