SQL全文搜索

参考网络资料,自己总结一些

*************************************


全文索引

1.定义

全文索引技术是目前搜索引擎的关键技术。

中文名

全文索引

外文名

term

    

先定义一个词库

    

搜索引擎的关键技术

 

2.原理

原理是先定义一个词库,然后在文章中查找每个词条(term)出现的频率和位置,把这样的频率和位置信息按照词库的顺序归纳,这样就相当于对文件建立了一个以词库为目录的索引,这样查找某个词的时候就能很快的定位到该词出现的位置。

问题在处理英文文档的时候显然这样的方式是非常好的,因为英文自然的被空格分成若干词,只要我们有足够大的词汇库就能很好的处理。但是亚洲文字因为没有空格作为断词标志,所以就很难判断一个词,而且人们使用的词汇在不断的变化,而维护一个可扩展的词汇库的成本是很高的,所以问题出现了。

解决出现这样的问题使分词成为全文索引的关键技术。目前有两种基本的方法:

二元法 它把所有有可能的每两两汉字的组合看为一个词组,这样就没有维护词库的开销。

词库法 它使使用词库中的词作为切分的标准,这样也出现了词库跟不上词汇发展的问题,除非你维护词库。

实际上现在很多著名的搜索引擎都使用了多种分词的办法,比如正向最大匹配”+“逆向最大匹配,基于统计学的新词识别,自动维护词库等技术,但是显然这样的技术还没有做到完美。

3.技术存储过程

目前全文索引技术正走向人工智能化,也是发展的方向。

MicroSoft SqlServer 2000/2005 中的全文索引是由一系列存储过程来完成的,这些存储过程按先后顺序罗列如下:

1、启动数据库的全文索引服务存储过程:sp_fulltext_service

2、初始化全文索引存储过程:sp_fulltext_database

3、建立全文索引目录存储过程:sp_fulltext_catalog

4、在全文索引目录中添加删除表标记存储过程:sp_fulltext_table

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值