搜索引擎中suggestion背后的算法结构

原创 2013年12月02日 16:18:13

我们使用某个搜索引擎的时候,往往你刚输入开头,页面就会给出一些我们极有可能想要查的内容,

例如今天想搜索玉免号内容,刚打了个玉字,下面就给出了玉兔提示(suggestion)



那么这是怎么做到的呢?


来看下百度百科对字典数据描述,我想你就知道答案了

至于有多个suggestion结果的时候如何选择的问题,可以根据某时间内用户日志中对查询词关注度排序得到

另外,这个suggestion是会及时更新的,意思是一般每天都会后台更新一次


字典树

Trie树即字典树。

又称单词查找树,Trie树,是一种树形结构,是一种哈希树的变种。典型应用是用于统计,排序和保存大量的字符串(但不仅限于字符串),所以经常被搜索引擎系统用于文本词频统计。它的优点是:利用字符串的公共前缀来减少查询时间,最大限度地减少无谓的字符串比较,查询效率比哈希表高。

1性质

它有3个基本性质:
根节点不包含字符,除根节点外每一个节点都只包含一个字符; 从根节点到某一节点,路径上经过的字符连接起来,为该节点对应的字符串; 每个节点的所有子节点包含的字符都不相同。

2基本操作

其基本操作有:查找、插入和删除,当然删除操作比较少见。我在这里只是实现了对整个树的删除操作,至于单个word的删除操作也很简单。

3实现方法

搜索字典项目的方法为(1) 从根结点开始一次搜索;
(2) 取得要查找关键词的第一个字母,并根据该字母选择对应的子树并转到该子树继续进行检索;
(3) 在相应的子树上,取得要查找关键词的第二个字母,并进一步选择对应的子树进行检索。
(4) 迭代过程……
(5) 在某个结点处,关键词的所有字母已被取出,则读取附在该结点上的信息,即完成查找。
其他操作类似处理

4应用

串的快速检索

给出N个单词组成的熟词表,以及一篇全用小写英文书写的文章,请你按最早出现的顺序写出所有不在熟词表中的生词。
在这道题中,我们可以用数组枚举,用哈希,用字典树,先把熟词建一棵树,然后读入文章进行比较,这种方法效率是比较高的。

“串”排序

给定N个互不相同的仅由一个单词构成的英文名,让你将他们按字典序从小到大输出
用字典树进行排序,采用数组的方式创建字典树,这棵树的每个结点的所有儿子很显然地按照其字母大小排序。对这棵树进行先序遍历即可。

最长公共前缀

对所有串建立字典树,对于两个串的最长公共前缀的长度即他们所在的结点的公共祖先个数,于是,问题就转化为当时公共祖先问题(以后补上)。

5基本模板

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
#define MAX 26 //字符集大小
typedef struct TrieNode
{
    int nCount; //记录该字符出现次数
    struct TrieNode *next[MAX];
} TrieNode;
 
TrieNode Memory[1000000];
int allocp = 0;
 
/*初始化*/
void InitTrieRoot(TrieNode **pRoot)
{
    *pRoot = NULL;
}
 
/*创建新结点*/
TrieNode *CreateTrieNode()
{
    int i;
    TrieNode *p;
    p = &Memory[allocp++];
    p->nCount = 1;
    for(i = 0 ; i < MAX ; i++)
    {
        p->next[i] = NULL;
    }
    return p;
}
 
/*插入*/
void InsertTrie(TrieNode **pRoot , char *s)
{
    int i , k;
    TrieNode *p;
    if(!(p = *pRoot))
    {
        p = *pRoot = CreateTrieNode();
    }
    i = 0;
    while(s[i])
    {
        k = s[i++] - 'a'; //确定branch
        if(p->next[k])
            p->next[k]->nCount++;
        else
            p->next[k] = CreateTrieNode();
        p = p->next[k];
    }   
}
 
//查找
int SearchTrie(TrieNode **pRoot , char *s)
{
    TrieNode *p;
    int i , k;
    if(!(p = *pRoot))
    {
        return0;
    }
    i = 0;
    while(s[i])
    {
        k = s[i++] - 'a';
        if(p->next[k] == NULL) return0;
        p = p->next[k];
    }
    return p->nCount;
}

相关文章推荐

JavaScript实现百度搜索suggestion功能

暑假的时候做了一个百度搜索suggestion功能的

Hadoop传递参数的方法总结

写MapReduce程序通常要传递各种各样的参数,选择合适的方式来传递参数既能提高工作效率,也可以避免bug的产生。根据参数的大小,可以粗略的分为以下几种。 最直接的方式就是使用Configurat...

如何使用suggestion--下拉列表方式的搜索建议

 转载地址: LBS云图:http://yuntu.amap.com/datamanager/index.html 博客园闪存首页新随笔联系管理订阅 随笔- 1...

MySQL索引背后的数据结构及算法原理

摘要 本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题。特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如B...

MySQL索引背后的数据结构及算法原理(转)

摘要 本文以MySQL数据库为研究对象,讨论与数据库索引相关的一些话题。特别需要说明的是,MySQL支持诸多存储引擎,而各种存储引擎对索引的支持也各不相同,因此MySQL数据库支持多种索引类型,如B...

MySQL索引背后的数据结构及算法原理(5)

MySQL索引背后的数据结构及算法原理(5) MySQL索引背后的数据结构及算法原理(1)    情况七:查询条件中含有函数或表达式。   很不幸,如果查询条件中含有函数或表达式,则MySQ...

浅谈MySQL索引背后的数据结构及算法

http://blog.linezing.com/2011/07/%E6%B5%85%E8%B0%88mysql%E7%B4%A2%E5%BC%95%E8%83%8C%E5%90%8E%E7%9A%8...
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:搜索引擎中suggestion背后的算法结构
举报原因:
原因补充:

(最多只允许输入30个字)