索引查找

本文介绍了一种基于索引的查找算法,通过哈希函数将数据映射到不同区间,并建立索引表来提高查找效率。文章详细展示了索引表和主表的构建过程,以及如何利用索引进行数据查找和插入。

索引查找是在索引表和主表上进行的查找,主表是线性表。先按照给定的哈希算法(比如value%100)对每一个value做哈希运算,将value映射到不同的数据段中(以模100为单位),这样每隔100个数段的区间就被一个哈希值做的索引映射到,以这种方式创建主表,同时创建一个索引表,记录每个100个数区间的索引编号、起始位置、有效数据长度。在查找数据的时候,只要以同样的哈希算法先计算哈希值,直接按该值跳到对应的数据区间,这直接就将查找空间缩小了,然后在这个区间内使用常用的顺序查找、二分查找等方式找到要找的值的位置。

#include <stdio.h>

#define N 100 // 主表最大长度
#define M 30 // 索引表最大长度
int ROW_WIDTH = 10;
int index_cur_len = 0; // 索引表当前有效索引长度
int main_len = 0; // 主表长度

/**
 * 计算索引编号的哈希函数
 */
#define hashindex(key) key / 100

/**
 * 索引项
 */
typedef struct
{
    int index; // 索引编号,按照间隔固定的每行长度index_width个数据划分为一个索引段。
    int start; // 索引起始位置,以此为基准搜索本行内数据,start = (index - 1) * ROW_WIDTH;
    int length; // 有效数据长度
} IndexUnit;

/**
 * 主表
 */
int main_table[N] = {
/*  177,189,100,123,111,0,0,0,0,0, // 主表固定的每行长度 ROW_WIDTH = 10,后面为0的代表无效数据
    201,202,203,204,  0,0,0,0,0,0,
    301,302,303,  0,  0,0,0,0,0,0
*/
};


/**
 * 索引表
 */
IndexUnit index_table[M] = {
/*  {1, 0,5}, // 第一行:第一列索引编号1;第二列索引起始位置 0 = (1 - 1) * 10;第三列有效数据长度是5个;
    {2,10,4}, // 第二行:第一列索引编号2;第二列索引起始位置10 = (2 - 1) * 10;第三列有效数据长度是4个;
    {3,20,3}  // 第三行:第一列索引编号3;第二列索引起始位置20 = (3 - 1) * 10;第三列有效数据长度是3个;
*/
};


void create_index(int *data, int length){
    int i = 0;
    int j = 0;
    // 初始化索引表
    for (i = 0; i < M; i++){
        index_table[i].index = i + 1;
        index_table[i].start = i * ROW_WIDTH;
        index_table[i].length = 0;
    }
    // 将数据写入主表和索引表
    for (i = 0; i < length; i++){
        j = hashindex(data[i]);
        if(j > index_cur_len) //记录下当前有效索引长度
            index_cur_len = j;
        main_table[index_table[j-1].start + index_table[j-1].length++] = data[i];
    }
    main_len = index_cur_len * ROW_WIDTH;
}

/**
 * 索引查找算法
 * @param key 给定值
 * @return 给定值在表中的位置,返回-1表示索引表中不存在该索引项
 */
int index_search(int key)
{
    int i = 0;
    int j = 0;
    int index = hashindex(key); // 求索引编号

    //遍历索引表,找到对应的索引项
    for (i = 0; i < index_cur_len; i++)
    {
        //找到索引项
        if (index_table[i].index == index)
        {
            //在源数据中顺序查找,也可以使用二分查找等其他更高效的查找方法,这里就不演示了,只说明下索引的基本原理。
            for (j = index_table[i].start; j < index_table[i].start + index_table[i].length; j++)
            {
                if (main_table[j] == key)
                {
                    return j;
                }
            }
            break;
        }
    }
    //索引表中不存在该索引项
    return -1;
}

/**
 * 插入数据
 * @param key 给定值
 * @return 0,插入成功,返回-1表示索引表中不存在该索引项
 */
int insert(int key)
{
    int i = 0;
    int index = hashindex(key); // 求索引编号

    //遍历索引表,找到对应的索引项
    for (i = 0; i < index_cur_len; i++)
    {
        if (index_table[i].index == index)
        {
            //依索引项将值插入到主表中,这里为了降低复杂度,只演示了在末尾追加数据。
            main_table[index_table[i].start + index_table[i].length] = key;
            //更新索引表
            index_table[i].length++;
            return 0;
        }
    }
    //索引表中不存在该索引项
    return -1;
}

int main()
{
    int test[20] = {177,202,189,123,111,302,201,203,301,204,303,100};
    int testlen = 12;
    int value = 245;
    int i = 0;

    printf("================= initial ===================\n");
    printf("原数据:\t");
    for(i = 0; i < testlen; i++){
        printf("%d\t", test[i]);
    }

    create_index(test, testlen);

    printf("\n主表:");
    for(i = 0; i < main_len; i++){
        if(0 == i % 10)
            printf("\n");
        printf("%d\t", main_table[i]);
    }

    printf("\n索引表:\n");
    for(i = 0; i < index_cur_len; i++){
        printf("{index=%d, start=%d, length=%d}\n", index_table[i].index, index_table[i].start, index_table[i].length);
    }

    printf("\n================= insert ===================\n");
    printf("插入数据: %d\n", value);
    //插入成功
    if (0 == insert(value))
    {
        printf("插入主表:");
        for(i = 0; i < main_len; i++){
            if(0 == i % 10)
                printf("\n");
            printf("%d\t", main_table[i]);
        }
        printf("\n更新索引表:\n");
        for(i = 0; i < index_cur_len; i++){
            printf("{index=%d, start=%d, length=%d}\n", index_table[i].index, index_table[i].start, index_table[i].length);
        }

        printf("\n通过索引算法查找 %d ,在主表中的位置是:main_table[%d]\n", value, index_search(value));
    }
    return 0;
}

运行结果:
[root@centos6 data]# gcc test.c
[root@centos6 data]# ./a.out
================= initial ===================
原数据: 177 202 189 123 111 302 201 203 301 204 303 100
主表:
177 189 123 111 100 0 0 0 0 0
202 201 203 204 0 0 0 0 0 0
302 301 303 0 0 0 0 0 0 0
索引表:
{index=1, start=0, length=5}
{index=2, start=10, length=4}
{index=3, start=20, length=3}

================= insert ===================
插入数据: 245
插入主表:
177 189 123 111 100 0 0 0 0 0
202 201 203 204 245 0 0 0 0 0
302 301 303 0 0 0 0 0 0 0
更新索引表:
{index=1, start=0, length=5}
{index=2, start=10, length=5}
{index=3, start=20, length=3}

通过索引算法查找 245 ,在主表中的位置是:main_table[14]


始于2012-05-13,Tencent;更新至2016-06-04,杭州。

### 索引查找算法的代码实现 索引查找(Index Search),又称分块查找,是一种介于顺序查找和二分查找之间的查找方法。其核心思想是将主表划分为若干个块,每一块内部无需保持有序,但块间需按照某种顺序排列(通常为升序)。通过先定位目标所在块,再在块内进行顺序查找来完成操作。 以下是一个完整的索引查找算法的Python代码实现: --- #### Python 实现索引查找算法 ```python def index_search(main_table, index_table, target): """ 索引查找算法实现。 参数: main_table (list): 主表,由多个块组成,每个块内的元素可以无序,但块间有序。 index_table (list of tuple): 索引表,存储各块的最大值及其对应的起始位置。 target (int/float): 要查找的目标值。 返回: int: 目标值在主表中的位置;若未找到,则返回 -1。 """ # 步骤 1:利用二分法查找目标所在的块 low = 0 high = len(index_table) - 1 while low <= high: mid = low + (high - low) // 2 block_max_value, start_position = index_table[mid] if target > block_max_value: # 目标值大于当前块最大值,向右移动 low = mid + 1 elif target < index_table[mid - 1][0] if mid > 0 else False: # 目标值小于前一个块最大值,向左移动 high = mid - 1 else: # 找到目标所属块 break if low > high: # 如果跳出循环而没有找到合适的块 return -1 # 步骤 2:在确定的块内进行顺序查找 _, start_pos = index_table[mid] end_pos = index_table[mid + 1][1] if mid + 1 < len(index_table) else len(main_table) for i in range(start_pos, end_pos): if main_table[i] == target: return i # 找到目标值的位置 return -1 # 块内未找到目标值 # 测试用例 if __name__ == "__main__": # 构造主表和索引表 main_table = [3, 6, 8, 10, 12, 15, 18, 20, 24, 27, 30, 35, 40] index_table = [(8, 0), (18, 4), (27, 8), (40, 10)] # 每个元组表示(块最大值, 块起始位置) target = 18 result = index_search(main_table, index_table, target) if result != -1: print(f"目标值 {target} 在主表中的位置为: {result}") else: print(f"目标值 {target} 不在主表中") ``` --- #### 关键点解析 1. **构建索引表** 索引表是由主表划分而成的一系列块构成,其中每一项记录了对应块的最大值以及该块在主表中的起始位置[^1]。 2. **块间查找** 利用二分查找技术快速定位目标值可能存在的块。由于块间已知有序,因此可以通过比较目标值与索引表中的最大值来进行高效筛选[^2]。 3. **块内查找** 在确定目标值属于某个特定块后,对该块内的所有元素逐一扫描以寻找匹配项。此过程采用的是顺序查找方式[^3]。 4. **时间复杂度分析** 设总共有 $ n $ 个元素分布在 $ m $ 个块中,则: - 查找索引表的时间复杂度为 $ O(\log m) $ - 块内顺序查找的时间复杂度为 $ O(n/m) $ 综合来看,索引查找的整体效率优于单纯的顺序查找,但在最坏情况下仍不如纯粹的二分查找[^4]。 --- ### 示例运行 假设我们有如下数据结构: - 主表 `main_table`: `[3, 6, 8, 10, 12, 15, 18, 20, 24, 27, 30, 35, 40]` - 索引表 `index_table`: `[(8, 0), (18, 4), (27, 8), (40, 10)]` 当我们尝试查找目标值 `18` 时,程序会输出: ``` 目标值 18 在主表中的位置为: 6 ``` 如果查找不存在的值(如 `19`),则输出: ``` 目标值 19 不在主表中 ``` ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值