搜索引擎中用到的一些拆词方式解析

  •   单词多形态(Word Stemming)

  单词多态,主要是关系到单词的词根( stem of a word )和通过这个词根变化出来的多个词的过程(Word Stemming),比如,works, 词根是work,可以变成Worker,Workers,Working,Worked等。搜索引擎可以利用这个特点进行词根匹配搜索。但它不是指“近义词”。

  •  断词(Word Truncation)

  断词是取单词的一部分加上通配符进行搜索。比如:Wor* 可以搜索出Work,Worker,Working等等的单词。

  •  近义词(Synonyms)
  近义词非常容易理解,就是意义相近,或者意义相同但叫法不同。比如“知了”和“蝉”等。
  据了解,Google不支持Word Stemming和Word Truncation。百度也有不少新的语法,可能大家都不知道,可以多去了解一下,比如用“-”号表示排除等。

(博客中都为原创,引用请注明出处,风焰庄主)

转载于:https://www.cnblogs.com/fyan888/archive/2007/09/14/SearchEngineer.html

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值