处理网站查询包含”之”字出现”全文搜索条件中包含干扰词”现象的总结:
author:perfectaction
Sql server 2008全文索引的干扰词表默认在Resource库系统表内,无法更改,但sql2008提供了自定义干扰词表的功能,可绑定到某个全文索引上。
相关操作如下:
-- sql server 2008 全文索引建立及创建全文非索引字表(干扰词表)
-- 以dbtest的user_info表为例
-- 选择数据库
USE dbtest
GO
-- 创建全文目录,这个是逻辑名
CREATE FULLTEXT CATALOG user_info AS DEFAULT ;
GO
-- 创建全文非索引字表(干扰词表)
CREATE FULLTEXT STOPLIST T_FULLTEXT_STOPLIST_user_info -- 全文非索引字表表名
FROM SYSTEM STOPLIST; -- 从系统全文非索引字表导入
-- 删除我们不需要的干扰词,如"之"字
ALTER FULLTEXT STOPLIST [ T_FULLTEXT_STOPLIST_user_info ]
DROP ' 之 ' LANGUAGE ' Simplified Chinese ' ;
-- 增加我们需要的干扰词,如"之"字
ALTER FULLTEXT STOPLIST [ T_FULLTEXT_STOPLIST_user_info ]
ADD ' 之 ' LANGUAGE ' Simplified Chinese ' ;
-- 创建表user_info的全文索引
CREATE FULLTEXT INDEX ON [ dbo ] . [ user_info ] -- 表名
( [ mem_name ] -- 列名
LANGUAGE [ Simplified Chinese ] )
KEY INDEX [ PK_user_info ] -- 聚集索引名
ON (FILEGROUP [ ftfg_FT_user_info ] ) -- 指定文件组名,如不指定,则存在当前表所在文件组
WITH (CHANGE_TRACKING = AUTO,
STOPLIST = T_FULLTEXT_STOPLIST_user_info -- 指定使用的全文非索引字表
)
-- 其它:
-- 对已存在全文索引指定全文非索引字表,命令执行后,
-- 如果CHANGE_TRACKING = AUTO,则会自动修改已填充索引,但不会全部重填
ALTER FULLTEXT INDEX on user_info -- 表名
SET STOPLIST = SYSTEM -- 指定使用的全文非索引字表为系统自带
ALTER FULLTEXT INDEX on user_info -- 表名
SET STOPLIST = T_FULLTEXT_STOPLIST_user_info ; -- 指定使用的全文非索引字表为用户自定义
-- 启动填充,如果CHANGE_TRACKING != AUTO,则需要启动一次填充才使新设定的全文非索引字表生效;
ALTER FULLTEXT INDEX on user_info -- 表名
START FULL POPULATION
FROM SYSTEM STOPLIST;
=================================================================
author:perfectaction
Sql server 2008全文索引的干扰词表默认在Resource库系统表内,无法更改,但sql2008提供了自定义干扰词表的功能,可绑定到某个全文索引上。
相关操作如下:
-- sql server 2008 全文索引建立及创建全文非索引字表(干扰词表)
-- 以dbtest的user_info表为例
-- 选择数据库
USE dbtest
GO
-- 创建全文目录,这个是逻辑名
CREATE FULLTEXT CATALOG user_info AS DEFAULT ;
GO
-- 创建全文非索引字表(干扰词表)
CREATE FULLTEXT STOPLIST T_FULLTEXT_STOPLIST_user_info -- 全文非索引字表表名
FROM SYSTEM STOPLIST; -- 从系统全文非索引字表导入
-- 删除我们不需要的干扰词,如"之"字
ALTER FULLTEXT STOPLIST [ T_FULLTEXT_STOPLIST_user_info ]
DROP ' 之 ' LANGUAGE ' Simplified Chinese ' ;
-- 增加我们需要的干扰词,如"之"字
ALTER FULLTEXT STOPLIST [ T_FULLTEXT_STOPLIST_user_info ]
ADD ' 之 ' LANGUAGE ' Simplified Chinese ' ;
-- 创建表user_info的全文索引
CREATE FULLTEXT INDEX ON [ dbo ] . [ user_info ] -- 表名
( [ mem_name ] -- 列名
LANGUAGE [ Simplified Chinese ] )
KEY INDEX [ PK_user_info ] -- 聚集索引名
ON (FILEGROUP [ ftfg_FT_user_info ] ) -- 指定文件组名,如不指定,则存在当前表所在文件组
WITH (CHANGE_TRACKING = AUTO,
STOPLIST = T_FULLTEXT_STOPLIST_user_info -- 指定使用的全文非索引字表
)
-- 其它:
-- 对已存在全文索引指定全文非索引字表,命令执行后,
-- 如果CHANGE_TRACKING = AUTO,则会自动修改已填充索引,但不会全部重填
ALTER FULLTEXT INDEX on user_info -- 表名
SET STOPLIST = SYSTEM -- 指定使用的全文非索引字表为系统自带
ALTER FULLTEXT INDEX on user_info -- 表名
SET STOPLIST = T_FULLTEXT_STOPLIST_user_info ; -- 指定使用的全文非索引字表为用户自定义
-- 启动填充,如果CHANGE_TRACKING != AUTO,则需要启动一次填充才使新设定的全文非索引字表生效;
ALTER FULLTEXT INDEX on user_info -- 表名
START FULL POPULATION
===========================================================================================
总结:
1.SQL 2008 需要开启search 服务。
2.SQL 2008 登陆角色要有相应的操作权限,一般加上SYSADMIN
3.SQL 2008 的数据库的兼容基本应该是SQL SERVER 2008(100)
4.对已存在的fulltext功能的table,或者从SQL 2005 升级到SQL 2008 的数据库;
需要做如下修改:
--
创建全文非索引字表(干扰词表)
CREATE
FULLTEXT STOPLIST T_FULLTEXT_STOPLIST_user_info
--
全文非索引字表表名
FROM SYSTEM STOPLIST;
--
删除我们不需要的干扰词,如"之"字 ;英文用 language 'English' or Language_id 1033
ALTER FULLTEXT STOPLIST [ T_FULLTEXT_STOPLIST_user_info ]
DROP ' 之 ' LANGUAGE ' Simplified Chinese ' ;
-- 增加我们需要的干扰词,如"之"字
ALTER FULLTEXT STOPLIST [ T_FULLTEXT_STOPLIST_user_info ]
ADD ' 之 ' LANGUAGE ' Simplified Chinese ' ;
ALTER FULLTEXT STOPLIST [ T_FULLTEXT_STOPLIST_user_info ]
DROP ' 之 ' LANGUAGE ' Simplified Chinese ' ;
-- 增加我们需要的干扰词,如"之"字
ALTER FULLTEXT STOPLIST [ T_FULLTEXT_STOPLIST_user_info ]
ADD ' 之 ' LANGUAGE ' Simplified Chinese ' ;
--应用到指定table中
ALTER
FULLTEXT
INDEX
on
[tablename]
--
表名
SET STOPLIST = T_FULLTEXT_STOPLIST_user_info ; -- 指定使用的全文非索引字表为用户自定义
SET STOPLIST = T_FULLTEXT_STOPLIST_user_info ; -- 指定使用的全文非索引字表为用户自定义
--查看系统默认干扰词列表
select * from sys.fulltext_stopwords
--查看table是否存在全文索引
select * from sys.fulltext_indexes
where object_id = object_id('[tablename]')
在SQL 2008中,我们可以通过查询系统表值函数sys.dm_fts_index_keywords
和sys.dm_fts_index_keywords_by_document来查看断词结果。
SELECT
display_term
FROM
sys.dm_fts_index_keywords_by_document(
DB_ID
(
'
TestFT
'
),
OBJECT_ID
(
'
TB
'
))
WHERE
document_id
=
2
and
column_id
=
3
--
全文键值为2 第3列
使用sys.dm_fts_parser来分析断词结果,sys.dm_fts_parser函数用起来更加灵活。
SELECT
special_term,display_term
FROM
sys.dm_fts_parser(
'
宁夏固原有一位网友给敬爱的苍老师写了一封信
'
,
1028
,
0
,
0
)
--
繁体中文
SELECT
special_term,display_term
FROM
sys.dm_fts_parser(
'
宁夏固原有一位网友给敬爱的苍老师写了一封信
'
,
2052
,
0
,
0
)
--
简体中文
=================================================================
The first thing you need to do is set the compatibility level up to 2008:
ALTERDATABASE[MyDatabase]SET COMPATIBILITY_LEVEL =100
Then, when creating the full-text index through the wizard, there is a step that allows you to ignore stopwords for the index
edit: Here's the script to do it as well:
ALTER FULLTEXT INDEXON MyTable SET STOPLIST =OFF
==============================================================
使用 transform noise words 服务器配置选项可以取消干扰词(即非索引字)导致全文查询的布尔操作返回零行时产生的错误消息。 此选项对于使用其布尔操作或 NEAR 操作包括干扰词的 CONTAINS 谓词的全文查询非常有用。
sp_configure 'show advanced options',1;
RECONFIGURE;
GO
sp_configure 'transform noise words',1;
RECONFIGURE;
GO