基本概念
此类方法以最基本的向量作为底层支撑结构,通过适当的散列函数在词条的关键码和向量单元的秩之间建立起映射关系。散列技术完全摒弃了“关键码”有序的先决条件,故就实现词典结构而言,散列所特有的通用性和灵活性是其他方式无法比拟的。主要也就是包括三个部分:散列表、散列函数、以及冲突排解的三个主题。
散列表
逻辑上由一系列可存放的词条(或引用)的单元组成,故这些单元也称作桶或者桶单元(bucket)。这种桶单元底层用数组来组织,此时的散列表也叫做桶数组(bucket array)。若桶数组的容量为R,其中合法秩的区间为[0, R]也称作地址空间(address space)。
散列函数
hash(): key-------> hash(key)
即:从关键码空间到桶数组地址空间的函数。反过来hash(key) 也称作key的散列地址。
冲突排解
最常用的办法就是独立链(separate chaining)法。
散列表的基本构思,开辟物理地址连续的桶数组ht[ ],借助散列函数hash( ), 将词条关键码key映射为桶地址hash(key),从而快速确定待操作词条的物理位置。
先以一个列子来认识一下散列表。
题目:
//现在有一个用来存放整数的Hash表,Hash表的存储单位称为桶,
//每个桶能放3个整数,当一个桶中要放的元素超过3个时,
//则要将新的元素存放在溢出桶中,每个溢出桶也能放3个元素,
//多个溢出桶使用链表串起来。
//此Hash表的基桶数目为素数P,Hash表的hash函数对P取模。代码定义如下:
#define P 7
#define NULL_DATA -1
struct bucket_node
{
int data[3];
struct bucket_node *next;
};
bucket_node hash_table[P];
//现在假设hash_table已经初始化好了,
//insert_new_element()函数目的是把一个新的值插入hash_table中,
//元素插入成功时,函数返回0,否则返回-1,完成函数。
解答:
#include<iostream>
//#include<map>
#include<assert.h>
//#include<string>
using namespace std;
#define P 7
#define NULL_DATA -1
struct bucket_node
{
int data[3];
struct bucket_node *next;
};
bucket_node hash_table[P];
int hash(int value)
{
return value % P;
}
int insert_new_element(int new_element)
{
int index = hash(new_element);
for(int i=0; i<3; ++i)
{
if(hash_table[index].data[i] == NULL_DATA)
{
hash_table[index].data[i] = new_element;
return 0;
}
}
bucket_node *p = &hash_table[index];
while(p->next != NULL)
{
p = p->next;
for(int i=0; i<3; ++i)
{
if(p->data[i] == NULL_DATA)
{
p->data[i] = new_element;
return 0;
}
}
}
bucket_node *s = (bucket_node*)malloc(sizeof(bucket_node));
assert(s != NULL);
for(i=0; i<3; ++i)
{
s->data[i] = NULL_DATA;
}
s->next = NULL;
s->data[0] = new_element;
p->next = s;
return 0;
}
void init_bucket_node()
{
for(int i=0; i<P; i++)
{
for(int j=0; j<3; ++j)
{
hash_table[i].data[j] = NULL_DATA;
}
hash_table[i].next = NULL;
}
}
int main()
{
init_bucket_node();
int array[] = {15,14,21,87,96,293,35,24,149,19,63,16,103,77,5,153,145,356,51,68,705,453 };
//int array[] = {1, 8, 15, 22, 29,36, 43};
for(int i = 0; i < sizeof(array)/sizeof(int); i++)
{
insert_new_element(array[i]);
}
return 0;
}
从上面的代码,可以初步了解到什么是散列表。但STL底层所用的散列表,是很复杂的。