基于词意的文本分析

基于词意的文本分析技术
http://www.kmcenter.org/blog/more.asp?name=crop&id=204 :源文


基于词意的文本分析
1 核心技术:

1.1 运用词意对文本内容进行分析,得到文本内容的重点要素。

1.2 词意的自学习技术。

1.3 与整个技术相结合的独特分词技术。

2 技术特点:

2.1 由于词意库是自学习形成,因此不需要预先设置庞大的词典库,而且最重要的是学习是持续性和自运行的,系统对词意的理解会随着外界的变化而变化,并能不断增添新创词汇。这一方法避免了目前常用的样本学习法的缺点,即需要大量人工干预(没有人工干预就不行),不能及时更新知识等。

2.2 由于同一个词,对于不同的人,词意可能是不同的,因此可以根据每个用户的习惯形成其自己的子词意库,可使用子词意库对文本进行二次分析,产生个性化结果。

2.3 系统的学习分为两种方式,知识学习和经验学习:

2.3.1 知识学习:系统自动在互联网上进行,无特定目的地吸收网上各种信息,并对收集到的信息进行分析后作为知识保留,整个过程无需人工干预,可一天24小时不间断地进行。

2.3.2 经验学习:每一次用户的具体使用,其结果也将作为经验保留下来,并对知识学习的结果进行修正。

2.4 分词技术不追求100%的准确,而讲究实用、快速,不依赖于庞大的词汇库或知识库,因此可以做到不针对特定领域,可解决人名、地名、新出现的词汇等的分词,这些问题是传统分词方法难以解决的,尤其是新词汇的分词,几乎是一个世界性的难题。

2.5 由于整个核心算法是非基于字、词典及语法的,而是从模仿人类对语言文字的理解入手,比如一个儿童并不懂得查字典和语法,但能够听懂别人说的话,因此对核心只要稍作修改便能够用于英语及其它文字语言,就好象一个婴儿,你把他放到哪个国家,他就能学会当地的语言。

3 应用:

3.1 相关性搜索:

3.1.1 根据关键词的词意,与文章提取的重点要素进行比对,以此生成搜索结果,这将是真正基于内容分析的搜索结果,而并非仅仅是简单的全文检索。比如在一篇计算机相关的文章中,可能计算机这个词出现得很少、甚至根本没有,而大量出现的可能是软件、硬件、程序、内存等词汇,也有可能在文章中不叫“计算机”而叫“电脑”,当使用“计算机”这个词汇进行检索时,系统可分析出从文章中提取的重点要素与“计算机”这个词是密切相关的,因此也会将其放入检索结果。另外可以避免将错误结果放入,比如用“苹果”搜索,却把有关“苹果色素”的文章放在了搜索结果中,“苹果”和“苹果色素”其实完全是两回事。

3.1.2 由此对搜索结果的排序显然也是最科学的,因为它是根据关键词与文章意义的联系紧密程度来进行排序,而并非是根据链接多少这种非科学的因素。

3.1.3 还可以根据使用者子词意库的情况,得到个性化的排序结果,因为同一个关键词对不同的人意义不尽相同。比如当用“足球”这个关键词搜索时,喜欢足彩的人希望有关足彩的文章在前面,喜欢英超的人则希望有关英超的文章在前面。

3.1.4 给用户进一步相关性检索的建议,当用户用某个词检索后,可给出一些相关词汇供用户进一步检索出更多所需要的内容。比如,用“太空”检索后,可给出宇宙、星系、地球、太阳、飞船、天文学等一系列相关词。而目前的搜索引擎只能给出包含第一个关键词的词汇,比如为了查找金信公司,用“金信”检索后,给出的相关词中会出现“黄金信息”、“冶金信息”等,显然这是不相关的,国内最大的搜索引擎——百度,目前就没有解决这个问题。

3.1.5 自然语言提问检索:即检索时可以使用自然语言提问,比如“什么品牌的电脑质量好”,而不一定只是用一个或几个词,这更符合一般人的使用习惯。GOOGLE 目前也有这个功能,但其采用的技术非常简单,因而会造成许多误解,还举“苹果”与“苹果色素”的列子,一般搜索引擎(没有自然语言提问),在搜索“苹果”时会把“苹果色素”检索出来,但在搜索“苹果色素”时却不会有找出“苹果”这种错误,而 GOOGLE 是简单地将“苹果色素”拆为“苹果”和“色素”两个词分别检索,故会出现把有关“苹果”的文章放到“苹果色素”的搜索结果中的错误,也就是从某种角度说,它反而不如一般搜索引擎。而基于词意的文本分析技术,即可以用自然语言提问,又可以避免 GOOGLE 所出现的这种错误。

3.1.6 搜索产品的市场策略:由于象 GOOGLE 和百度这样的搜索引擎投入非常巨大,而且竞争对手过于强大,因此这不应该是主要的发展方向。相对而言,做网站内部搜索引擎则投入要小得多,而且市场前景广阔,空间很大。目前,对于许多网站,尤其是电子商务、供求信息网站(如阿里巴巴 china.alibaba.com 等),搜索的效率已不重要,那种零点零几秒找出几万个结果,对于他们来说是没有意义的。他们要的是准确,能够为商人们找到最有用的信息才是最重要的,目前很多网站都在寻求这样的技术和产品,但由于人工智能方面的难度,这样的产品少之又少。

3.2 根据用户爱好和习惯,自动搜索其所需要的内容。很多时候,人们需要信息的爱好和习惯是难以用一、两个关键词来体现的,而通过以上技术,可以从用户所浏览页面中分析出用户的爱好和习惯,进而在用户进入网站时自动将他最喜欢的内容呈现在他的眼前,而且这种分析也是持续性的,可以即时掌握用户习惯和爱好的变化。
很早以前就有很多人想实现此功能,如赢海威总经理张树新带领一个团队转到润讯时就想做这样的网站,但因为没有掌握文章内容分析的技术,导致失败。
微软的 MSN 和雅虎的网站,也都推出类似的功能,即“我的 MSN”(http://china.msn.com/Help/default.asp?iHelpPageID=0 )和“我的雅虎”(http://help.yahoo.com/help/gb/my/my-01.html ),但它们都需要用户去设置关键词,这有三大问题:

3.2.1 最大的问题是用户嫌麻烦,不愿意用;

3.2.2 正如上面所说,习惯、爱好不是几个关键词就能说清楚的,有时用户自己都搞不清该用哪几个关键词来概括;

3.2.3 习惯和爱好是发展变化的,这种变化一般是潜移默化的,用户自己也难以查觉而去修改所设置的关键词,即使查觉,也往往会忘记和懒得去修改。

3.3 自动摘要:由于使用了词意的理解,使得摘要的准确性大大提高,而且因为核心算法并非针对某个特定领域,所以应用的范围也是全领域的。

3.4 自动分类:比如输入一个产品,电脑系统能够自动将其归到一个产品类录下面。这对搜索引擎、电子商务、供求信息等网站也是非常有用的,然而这也是一个世界性的难题。目前一般都是采用人工来进行分类,比如搜狐就曾在网上发动大量的志愿者对其搜索引擎进行分类整理,但可想而知这样做在成本、效率、准确度等方面都难以满足要求。

3.5 自动聚类,将搜索结果自动进行分类,类别也由软件自己定,以此利于使用者对结果的查看,因为一个关键词往往对应多种意思,而一个使用者往往只需要一种意思。

3.6 应用核心技术开发出其它特定功能的软件。

4 关于人工智能的基本思想:

4.1 我们认为必须是具有学习能力的系统才能够称得上有人工智能,否则即使再复杂、高级的系统,如战胜卡斯帕罗夫的深蓝,如果他不能在下棋时自己总结经验教训,而要通过程序员修改程序来提高棋力,那么都不能算人工智能,因为那跟一个计算器在本质上没有区别;

4.2 应该尽量减少人工干预的成分,即在没有任何人工干预的情况也能正常运作;

4.3 不完全排斥人工干预,少量的人工干预可起到景上添花的效果。就象一个小孩,大人不加任何指点,他也能学会吃饭、讲话,但如果稍加指点,他就可能学得更快、更好。

5 关于当前搜索引擎的排序技术:

5.1 目前最被人们津津乐道的搜索引擎技术,就是所谓的“链接分析排序”,它的基本思想是根据页面被链接的数量作为排序的一个重要因素。然而显然这是不科学的,比如一些专业性较强的文章可能是发在专业性的小网站上,如一篇非常好的关于“人工智能”的文章很可能是发在一个不为非专业人员所知的专业网站上,这种网站被链接的机会肯定是很少;而另一方面在新浪上可能发表着许多关于“人工智能”的通俗读物,但因为它是新浪,故被链接的数量很多。那么基于链接的分析很可能把通俗读物排在专业文章的前面,而对于搜索“人工智能”的专业人士来说,这自然是不能满足要求的,而搜索这种词汇的又往往是专业人员,所以“链接分析”技术的不足是显而易见的。
另外,如果是做站内搜索产品,这个技术就更是毫无用处了。

5.2 目前第二大排序的因素往往是词频,即关键词在文章中出现的次数,仍然举上面那个例子,人工智能的专业文章因为是给专业人士看的,往往不一定会有很多“人工智能”这个词在文章中,因为不说,看的人也知道;反而是通俗读物常常整篇文章充满了这个词。所以不是基于文章内容分析的方法来进行排序,都很难满足人们的要求。

数据治理是确保数据准确性、可靠性、安全性、可用性和完整性的体系和框架。它定义了组织内部如何使用、存储、保护和共享数据的规则和流程。数据治理的重要性随着数字化转型的加速而日益凸显,它能够提高决策效率、增强业务竞争力、降低风险,并促进业务创新。有效的数据治理体系可以确保数据在采集、存储、处理、共享和保护等环节的合规性和有效性。 数据质量管理是数据治理中的关键环节,它涉及数据质量评估、数据清洗、标准化和监控。高质量的数据能够提升业务决策的准确性,优化业务流程,并挖掘潜在的商业价值。随着大数据和人工智能技术的发展,数据质量管理在确保数据准确性和可靠性方面的作用愈发重要。企业需要建立完善的数据质量管理和校验机制,并通过数据清洗和标准化提高数据质量。 数据安全与隐私保护是数据治理中的另一个重要领域。随着数据量的快速增长和互联网技术的迅速发展,数据安全与隐私保护面临前所未有的挑战。企业需要加强数据安全与隐私保护的法律法规和技术手段,采用数据加密、脱敏和备份恢复等技术手段,以及加强培训和教育,提高安全意识和技能水平。 数据流程管理与监控是确保数据质量、提高数据利用率、保护数据安全的重要环节。有效的数据流程管理可以确保数据流程的合规性和高效性,而实时监控则有助于及时发现并解决潜在问题。企业需要设计合理的数据流程架构,制定详细的数据管理流程规范,并运用数据审计和可视化技术手段进行监控。 数据资产管理是将数据视为组织的重要资产,通过有效的管理和利用,为组织带来经济价值。数据资产管理涵盖数据的整个生命周期,包括数据的创建、存储、处理、共享、使用和保护。它面临的挑战包括数据量的快速增长、数据类型的多样化和数据更新的迅速性。组织需要建立完善的数据管理体系,提高数据处理和分析能力,以应对这些挑战。同时,数据资产的分类与评估、共享与使用规范也是数据资产管理的重要组成部分,需要制定合理的标准和规范,确保数据共享的安全性和隐私保护,以及建立合理的利益分配和权益保障机制。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值