DNN中搜索引擎原理——数据库分析篇

原创 2011年01月08日 17:25:00

DotNetNuke(以下简称DNN)中所采取的搜索方式,并不是我们通常所想象的直接再要查询的表中直接搜索。因为DNN中的模块是多种多样的,各数据表的形式和要查询的字段也是不一样,如果直接查询每一个表的内容是几乎不可能实现的。DNN中引入了一个SearchItem表,将各种各样的需要查询的内容,归结为查询条目的形式添加到该表中。同时还引出了一个SearchWord表,将需要查询的内容分解成一个个关键字,这样更能加快检索速度,而且还利于多关键字检索。在DNN搜索中还有一个小技巧:可以通过“key1 key2的形式进行多关键字检索,并且可以通过“key1+ key2-”形式明确指出是否必须保含某关键字,是否必须排除某关键字。

整个和搜索相关表的关系图如下:

从关系图上来看,只要在SearchWord表中找到指定关键字,通过SearchItemWord表,就能知道要查询的内容了。通过SearchItem表,就能确切知道是哪个模块了。

各表个字段的详细解释:

SearchCommonWords常用字/词组信息表(存储指定文化区域的常用字,在查询时输入这些字是不会返回结果的)

字段名

类型

含义

备注

CommonWordID

Int

常用字ID

主键

CommonWord

Nvarchar(255)

常用字

如:whereabout在英文中都属于常用字

Locale

Nvarchar(10)

所属文化区域

 

 

SearchIndexer索引Provider的程序集(这个表的数据好像没有用,在web.config中有设置

字段名

类型

含义

备注

SearchIndexerID

Int

ID

主键

SearchIndexerAssemblyQualifiedName

Char(200)

程序集

 

 

SearchItem模块内容搜索条目(将所有可能被搜索到的模块内容,通过定时调度的方式,将模块内容以搜索条目的形式保存,这样可加快搜索速度)

字段名

类型

含义

备注

SearchItemID

Int

搜索条目ID

主键

Title

Nvarchar(200)

标题

 

Description

Nvarchar(2000)

描述

 

Author

Int

作者Id

 

PubDate

Datetime

发布日期

 

ModuleId

Int

所属模块Id

与模块信息表(Modules)关联

SearchKey

Nvarchar(100)

搜索关键字

 

Guid

Varchar(200)

 

好像是指示模块中的一条记录

HitCount

Int

点击次数

 

ImageFileId

Int

 

 

 

SearchItemWord搜索关键字索引信息表(搜索条目和搜索关键字之间的关系)

字段名

类型

含义

备注

SearchItemWordID

Int

搜索关键字索引ID

主键

SearchItemID

Int

搜索条目Id

关联模块内容搜索条目表(SearchItem

SearchWordsID

Int

搜索关键字Id

关联搜索关键字信息表(SearchWordsID

Occurrences

Int

出现次数

关键字在指定搜索内容中的出现次数

 

SearchItemWordPosition搜索关键字在被搜索内容中出现的位置

字段名

类型

含义

备注

SearchItemWordPositionID

Int

ID

主键

SearchItemWordID

Int

搜索关键字索引ID

关联搜索关键字索引信息表(SearchItemWord

ContentPosition

Int

出现位置

 

 

SearchWord搜索关键字信息表(存储可供检索的关键字)

字段名

类型

含义

备注

SearchWordsID

Int

搜索关键字ID

主键

Word

Nvarchar(100)

搜索关键字

 

IsCommon

Bit

是否是常用字

 

HitCount

Int

点击次数

 

一个可以改进的存储过程:

查看获取查询结果的存储过程GetSearchResults,我们会发现必须完全匹配查找关键字才能查出所需的内容。问题就在“sw.Word = @Word”这一句上,也就是说如果一个模块中包含“DotNetNuke”这个内容,那么他输入“Nuke”是不会查出来的。将这一句改成“sw.Word  like '%' + @Word+'%'”就可以了(这是一个以效率换结果的方法)。具体修改方法见:http://www.cnblogs.com/esshs/archive/2005/08/12/213154.html

 

从数据表和所实现的功能上看,某些表的数据字段还没有用上,估计是DNN预留字段以便日后扩充。看完这篇文章的不知大家对DNN的查询功能是否有一个大概的了解。以后将继续针对如何通过各功能模块所实现的查询接口来填充SearchItem表;点击“查询”是如何工作的这些方面的问题来继续说明DNN搜索引擎原理。上文有任何讲解不正确的地方还请大家指出,以免误导他人。

 

 

http://www.cnblogs.com/esshs/archive/2005/08/15/215491.html

相关文章推荐

MNIST手写数字的识别——DNN篇

DNN要比CNN要简单的多,当年我还用gradient descent写DNN的源代码呢,可惜现在需要学的东西太多了,所以对算法源代码就不如以前深究咯。 # coding=utf-8 # 版...

搜索引擎——原理、技术与系统.

  • 2011年01月25日 14:23
  • 4.24MB
  • 下载

搜索引擎——原理技术与系统

  • 2008年11月04日 01:29
  • 17.44MB
  • 下载

SEO学习(三)——搜索引擎的链接原理(排名过滤和调整)

作用:搜索引擎使用链接分析技术减少垃圾,提高结果相关性,影响排名,增强用户体验,还能处理传统关键词匹配无法排名的文件。 李彦宏超链接分析专利——超链文件检索系统和方法    是基于链接的排名方法,...

DNN建站技术——表单模块

  • 2011年11月09日 11:56
  • 59KB
  • 下载

网络搜索引擎---网络爬虫之原理分析和探讨

转自: http://www.360doc.com/content/10/0519/09/1007797_28335641.shtml 成搜索引擎从 1.网页下载, 2.文本分析, 3.索引生...
  • ztbzg
  • ztbzg
  • 2012年02月26日 23:52
  • 166

2016年最新的搜索引擎,排名优化原理分析

什么是搜索引擎,排名优化? 简单的说搜索引擎优化就是我们通常所说的SEO优化,一个网站的优化包含有很多,例如:网站关键字的优化、网站布局的优化、页面内容等。那么这些决定网站排名的重要因素是怎么样...

图像搜索引擎 - 原理篇

对大规模图像搜索引擎开发过程中涉及到的问题及解决方法进行简单综述。

语音识别系统原理介绍---从gmm-hmm到dnn-hmm

一直想写个关于语音识别系统原理的博文。前段时间我和@零落一起做了很多实验,比如htk,kaldi等。从周五开始就已经放寒假了,明天就做火车回家了。今晚加点劲写点吧,回家由于没网。大家有问题只能留言或者...

语音识别基本原理介绍------dnn-hmm续

很久没更新博客了,最近找工作找的不是
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:DNN中搜索引擎原理——数据库分析篇
举报原因:
原因补充:

(最多只允许输入30个字)