基于词意的文本分析

最新推荐文章于 2025-05-30 02:40:52 发布

studio9

最新推荐文章于 2025-05-30 02:40:52 发布

阅读量1.8k

点赞数

文章标签：搜索引擎语言 google 产品全文检索电子商务

本文链接：https://blog.csdn.net/studio9/article/details/208602

版权

基于词意的文本分析技术

http://www.kmcenter.org/blog/more.asp?name=crop&id=204 :源文

基于词意的文本分析
1 核心技术：

1.1 运用词意对文本内容进行分析，得到文本内容的重点要素。

1.2 词意的自学习技术。

1.3 与整个技术相结合的独特分词技术。

2 技术特点：

2.1 由于词意库是自学习形成，因此不需要预先设置庞大的词典库，而且最重要的是学习是持续性和自运行的，系统对词意的理解会随着外界的变化而变化，并能不断增添新创词汇。这一方法避免了目前常用的样本学习法的缺点，即需要大量人工干预（没有人工干预就不行），不能及时更新知识等。

2.2 由于同一个词，对于不同的人，词意可能是不同的，因此可以根据每个用户的习惯形成其自己的子词意库，可使用子词意库对文本进行二次分析，产生个性化结果。

2.3 系统的学习分为两种方式，知识学习和经验学习：

2.3.1 知识学习：系统自动在互联网上进行，无特定目的地吸收网上各种信息，并对收集到的信息进行分析后作为知识保留，整个过程无需人工干预，可一天24小时不间断地进行。

2.3.2 经验学习：每一次用户的具体使用，其结果也将作为经验保留下来，并对知识学习的结果进行修正。

2.4 分词技术不追求100%的准确，而讲究实用、快速，不依赖于庞大的词汇库或知识库，因此可以做到不针对特定领域，可解决人名、地名、新出现的词汇等的分词，这些问题是传统分词方法难以解决的，尤其是新词汇的分词，几乎是一个世界性的难题。

2.5 由于整个核心算法是非基于字、词典及语法的，而是从模仿人类对语言文字的理解入手，比如一个儿童并不懂得查字典和语法，但能够听懂别人说的话，因此对核心只要稍作修改便能够用于英语及其它文字语言，就好象一个婴儿，你把他放到哪个国家，他就能学会当地的语言。

3 应用：

3.1 相关性搜索：

3.1.1 根据关键词的词意，与文章提取的重点要素进行比对，以此生成搜索结果，这将是真正基于内容分析的搜索结果，而并非仅仅是简单的全文检索。比如在一篇计算机相关的文章中，可能计算机这个词出现得很少、甚至根本没有，而大量出现的可能是软件、硬件、程序、内存等词汇，也有可能在文章中不叫“计算机”而叫“电脑”，当使用“计算机”这个词汇进行检索时，系统可分析出从文章中提取的重点要素与“计算机”这个词是密切相关的，因此也会将其放入检索结果。另外可以避免将错误结果放入，比如用“苹果”搜索，却把有关“苹果色素”的文章放在了搜索结果中，“苹果”和“苹果色素”其实完全是两回事。

3.1.2 由此对搜索结果的排序显然也是最科学的，因为它是根据关键词与文章意义的联系紧密程度来进行排序，而并非是根据链接多少这种非科学的因素。

3.1.3 还可以根据使用者子词意库的情况，得到个性化的排序结果，因为同一个关键词对不同的人意义不尽相同。比如当用“足球”这个关键词搜索时，喜欢足彩的人希望有关足彩的文章在前面，喜欢英超的人则希望有关英超的文章在前面。

3.1.4 给用户进一步相关性检索的建议，当用户用某个词检索后，可给出一些相关词汇供用户进一步检索出更多所需要的内容。比如，用“太空”检索后，可给出宇宙、星系、地球、太阳、飞船、天文学等一系列相关词。而目前的搜索引擎只能给出包含第一个关键词的词汇，比如为了查找金信公司，用“金信”检索后，给出的相关词中会出现“黄金信息”、“冶金信息”等，显然这是不相关的，国内最大的搜索引擎——百度，目前就没有解决这个问题。

3.1.5 自然语言提问检索：即检索时可以使用自然语言提问，比如“什么品牌的电脑质量好”，而不一定只是用一个或几个词，这更符合一般人的使用习惯。GOOGLE 目前也有这个功能，但其采用的技术非常简单，因而会造成许多误解，还举“苹果”与“苹果色素”的列子，一般搜索引擎（没有自然语言提问），在搜索“苹果”时会把“苹果色素”检索出来，但在搜索“苹果色素”时却不会有找出“苹果”这种错误，而 GOOGLE 是简单地将“苹果色素”拆为“苹果”和“色素”两个词分别检索，故会出现把有关“苹果”的文章放到“苹果色素”的搜索结果中的错误，也就是从某种角度说，它反而不如一般搜索引擎。而基于词意的文本分析技术，即可以用自然语言提问，又可以避免 GOOGLE 所出现的这种错误。

3.1.6 搜索产品的市场策略：由于象 GOOGLE 和百度这样的搜索引擎投入非常巨大，而且竞争对手过于强大，因此这不应该是主要的发展方向。相对而言，做网站内部搜索引擎则投入要小得多，而且市场前景广阔，空间很大。目前，对于许多网站，尤其是电子商务、供求信息网站（如阿里巴巴 china.alibaba.com 等），搜索的效率已不重要，那种零点零几秒找出几万个结果，对于他们来说是没有意义的。他们要的是准确，能够为商人们找到最有用的信息才是最重要的，目前很多网站都在寻求这样的技术和产品，但由于人工智能方面的难度，这样的产品少之又少。

3.2 根据用户爱好和习惯，自动搜索其所需要的内容。很多时候，人们需要信息的爱好和习惯是难以用一、两个关键词来体现的，而通过以上技术，可以从用户所浏览页面中分析出用户的爱好和习惯，进而在用户进入网站时自动将他最喜欢的内容呈现在他的眼前，而且这种分析也是持续性的，可以即时掌握用户习惯和爱好的变化。
很早以前就有很多人想实现此功能，如赢海威总经理张树新带领一个团队转到润讯时就想做这样的网站，但因为没有掌握文章内容分析的技术，导致失败。
微软的 MSN 和雅虎的网站，也都推出类似的功能，即“我的 MSN”(http://china.msn.com/Help/default.asp?iHelpPageID=0 )和“我的雅虎”(http://help.yahoo.com/help/gb/my/my-01.html )，但它们都需要用户去设置关键词，这有三大问题：

3.2.1 最大的问题是用户嫌麻烦，不愿意用；

3.2.2 正如上面所说，习惯、爱好不是几个关键词就能说清楚的，有时用户自己都搞不清该用哪几个关键词来概括；

3.2.3 习惯和爱好是发展变化的，这种变化一般是潜移默化的，用户自己也难以查觉而去修改所设置的关键词，即使查觉，也往往会忘记和懒得去修改。

3.3 自动摘要：由于使用了词意的理解，使得摘要的准确性大大提高，而且因为核心算法并非针对某个特定领域，所以应用的范围也是全领域的。

3.4 自动分类：比如输入一个产品，电脑系统能够自动将其归到一个产品类录下面。这对搜索引擎、电子商务、供求信息等网站也是非常有用的，然而这也是一个世界性的难题。目前一般都是采用人工来进行分类，比如搜狐就曾在网上发动大量的志愿者对其搜索引擎进行分类整理，但可想而知这样做在成本、效率、准确度等方面都难以满足要求。

3.5 自动聚类，将搜索结果自动进行分类，类别也由软件自己定，以此利于使用者对结果的查看，因为一个关键词往往对应多种意思，而一个使用者往往只需要一种意思。

3.6 应用核心技术开发出其它特定功能的软件。

4 关于人工智能的基本思想：

4.1 我们认为必须是具有学习能力的系统才能够称得上有人工智能，否则即使再复杂、高级的系统，如战胜卡斯帕罗夫的深蓝，如果他不能在下棋时自己总结经验教训，而要通过程序员修改程序来提高棋力，那么都不能算人工智能，因为那跟一个计算器在本质上没有区别；

4.2 应该尽量减少人工干预的成分，即在没有任何人工干预的情况也能正常运作；

4.3 不完全排斥人工干预，少量的人工干预可起到景上添花的效果。就象一个小孩，大人不加任何指点，他也能学会吃饭、讲话，但如果稍加指点，他就可能学得更快、更好。

5 关于当前搜索引擎的排序技术：

5.1 目前最被人们津津乐道的搜索引擎技术，就是所谓的“链接分析排序”，它的基本思想是根据页面被链接的数量作为排序的一个重要因素。然而显然这是不科学的，比如一些专业性较强的文章可能是发在专业性的小网站上，如一篇非常好的关于“人工智能”的文章很可能是发在一个不为非专业人员所知的专业网站上，这种网站被链接的机会肯定是很少；而另一方面在新浪上可能发表着许多关于“人工智能”的通俗读物，但因为它是新浪，故被链接的数量很多。那么基于链接的分析很可能把通俗读物排在专业文章的前面，而对于搜索“人工智能”的专业人士来说，这自然是不能满足要求的，而搜索这种词汇的又往往是专业人员，所以“链接分析”技术的不足是显而易见的。
另外，如果是做站内搜索产品，这个技术就更是毫无用处了。

5.2 目前第二大排序的因素往往是词频，即关键词在文章中出现的次数，仍然举上面那个例子，人工智能的专业文章因为是给专业人士看的，往往不一定会有很多“人工智能”这个词在文章中，因为不说，看的人也知道；反而是通俗读物常常整篇文章充满了这个词。所以不是基于文章内容分析的方法来进行排序，都很难满足人们的要求。