20220530数据结构绿皮书读书笔记

个人博客
https://blog.hylstudio.cn/archives/964

20220530数据结构绿皮书读书笔记

9 表格和信息检索

9.1 简介

第七章我们证明过,仅仅使用比较的方式从n个元素中搜索1个元素,不可能小于lgn次的比较次数

事实上我们通常这么做,如果有500个不同的记录,每个的索引分别是0-499,我们可以使用这个索引快速的定位

基于表的不同形状,获取一个记录的动作是不一样的,但是最低可以是O(1),所需的时间不随着表的增大而增加

9.2 矩形表格

行优先表、列优先表。大部分编译器都使用行优先存储,假如行标是1、2,列标是5、6、7,基于行优先的存储就是15\16\17\25\26\27,基于列优先的存储就是15\25\16\26\17\27

这种存储的定位算法(index function)就是简单的线性函数,ni+j即可。如果从0开始或从1开始就+1或者-1

9.3 其他异形表格

9.3.1 三角表

可以使用额外的一个数组(Access table)记录每行或者每列的offset,其余位置都是0,或者没值

9.3.2 参差不齐锯齿状表格

三角形退化一点就是参差不齐的表格

9.3.3 倒排表

考虑到实际情况,比如电话本,需要同时按姓名、地址、电话查找,在这种情况下就需要倒排表。通过排好序的access table可以很快的定位原始数据,注意,access table里不会含有原始数据,只有下标,就像字典或者其他任何书的目录一样

Index Name Address Phone
1 Hill, Thomas M. High Towers #317 2829478
2 Baker, John S. 17 King Street 2884285
3 Roberts, L. B. 53 Ash Street 4372296
4 King, Barbara High Towers #802 2863386
5 Hill, Thomas M. 39 King Street 2495723
6 Byers, Carolyn 118 Maple Street 4394231
7 Moody, C. L. High Towers #210 2822214

Access Array
Name Address Phone
235
677
111
544
422
753
366

9.4 表格

新的抽象数据类型
一个table由以下部分组成:
1.索引的集合I
2.基础类型T
3.一个从I到T的函数映射
4.Table读取:评估任意I中index元素的操作
5.Table写入:修改任意I中index元素位置的值

注意区分table和array的概念区别,一个是抽象数据类型,一个是具体实现table或者顺序表的语言特性

9.5 应用,基数排序

radix sort又称桶排
不废话直接上代码
https://github.com/956237586/DataStructure-C/blob/master/DataStructure-C/BucketSortBug%20V1.0.c
https://github.com/956237586/DataStructure-C/blob/master/DataStructure-C/BucketSortBug%20V1.1.c
https://github.com/956237586/DataStructure-C/blob/master/DataStructure-C/BucketSortBug%20V1.2.c

9.6 哈希

当table的key不再是一个index的情况下,如何把key和index一一关联?
hash table允许我们把很多不同分布的key映射到我们想要的分布上
哈希函数可以把一个key映射到数组的某个索引上,另外我们需要一些方法来解决映射结果相同,也就是碰撞

1.寻找好的hash函数
便于快速运算,结果有着良好的均匀分布
如果我们事先精确知道key如何分布,那就有可能构造一个足够高效的哈希函数,但实际上不可能。因此通常的方法是把key的一部分信息混合其他的方式来生成均匀分布的函数。注意:这里没有任何随机成分,如果相同的key多次执行hash函数,结果应当是一致的,否则将无法从表中再取出数据

常用套路1:truncation,忽略部分key,举个例子一个8位整数需要映射到1000个位置,直接使用其中3位数字即可,剩余的丢弃。这种方式生成的分布取决于key原始的分布,并不是非常均匀
常用套路2:folding,折叠,举个例子,21296876->212+968+76->1256,折叠通常会比truncation有效
常用套路3:modular,取模,n % x 的结果服从 0 ~ x - 1的分布
这里需要提下概率论与梳理统计hhhh但愿你们还记得,反正我记得的不多了

2.决定如何处理碰撞
常用套路1:线性探测,如果第一个位置不可用,则依照预定义的函数尝试下一个位置
常用套路2:聚簇,把多个碰撞的元素放到同一个位置直接存下来,例如拉链法
常用套路3:再哈希,把结果再过一次hash函数
常用套路4:二次探测,如果第一个位置h不可用,则尝试h+i^2的位置,h+1\h+4+h+9
常用套路5:key独立的增长,基于发生碰撞的key的自身数据决定下一个探测的位置
常用套路6:猴子探测(随机)

一般都会说因为泊松分布,所以loadfactor设置的0.75,但这么说一般能应付面试。如果深挖泊松分布的原理,其实是还挺不好解释的
下面的文章仅供参考
https://zhuanlan.zhihu.com/p/395174872
https://zhuanlan.zhihu.com/p/396019103
https://blog.csdn.net/weixin_43883685/article/details/109809049

9.9 应用:Life模拟

因为Life开局就是稀疏矩阵,大部分概率下也就是稀疏矩阵了,因此可以考虑使用压缩存储的办法进行处理

明天继续二叉树
mark 目前是429页 ,pdf是446页

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
数据结构》(C语言版)是为“数据结构”课程编写的教材,也可作为学习数据结构及其算法的C程序设计的参数教材。学了数据结构后,许多以前写起来很繁杂的代码现在写起来很清晰明了. 本书的前半部分从抽象数据类型的角度讨论各种基本类型的数据结构及其应用;后半部分主要讨论查找和排序的各种实现方法及其综合分析比较。 全书采用类C语言作为数据结构算法的描述语言。 本书概念表述严谨,逻辑推理严密,语言精炼,用词达意,并有配套出版的《数据结构题集》(C语言版),便于教学,又便于自学。 本书后附有光盘。光盘内容可在DOS环境下运行的以类C语言描述的“数据结构算法动态模拟辅助教学软件,以及在Windows环境下运行的以类PASCAL或类C两种语言描述的“数据结构算法动态模拟辅助教学软件”。内附 数据结构算法实现(严蔚敏版配套实现程序) 目录: 第1章 绪论 1.1 什么是数据结构 1.2 基本概念和术语 1.3 抽象数据类型的表现与实现 1.4 算法算法分析 第2章 线性表 2.1 线性表的类型定义 2.2 线性表的顺序表示和实现 2.3 线性表的链式表示和实现 2.4 一元多项式的表示及相加 第3章 栈和队列 3.1 栈 3.2 栈的应有和举例 3.3 栈与递归的实现 3.4 队列 3.5 离散事件模拟 第4章 串 4.1 串类型的定义 4.2 串的表示和实现 4.3 串的模式匹配算法 4.4 串操作应用举例 第5章 数组和广义表 5.1 数组的定义 5.2 数组的顺序表现和实现 5.3 矩阵的压缩存储 5.4 广义表的定义 5.5 广义表的储存结构 5.6 m元多项式的表示 5.7 广义表的递归算法第6章 树和二叉树 6.1 树的定义和基本术语 6.2 二叉树 6.2.1 二叉树的定义 6.2.2 二叉树的性质 6.2.3 二叉树的存储结构 6.3 遍历二叉树和线索二叉树 6.3.1 遍历二叉树 6.3.2 线索二叉树 6.4 树和森林 6.4.1 树的存储结构 6.4.2 森林与二叉树的转换 6.4.3 树和森林的遍历 6.5 树与等价问题 6.6 赫夫曼树及其应用 6.6.1 最优二叉树(赫夫曼树) 6.6.2 赫夫曼编码 6.7 回溯法与树的遍历 6.8 树的计数 第7章 图 7.1 图的定义和术语 7.2 图的存储结构 7.2.1 数组表示法 7.2.2 邻接表 7.2.3 十字链表 7.2.4 邻接多重表 7.3 图的遍历 7.3.1 深度优先搜索 7.3.2 广度优先搜索 7.4 图的连通性问题 7.4.1 无向图的连通分量和生成树 7.4.2 有向图的强连通分量 7.4.3 最小生成树 7.4.4 关节点和重连通分量 7.5 有向无环图及其应用 7.5.1 拓扑排序 7.5.2 关键路径 7.6 最短路径 7.6.1 从某个源点到其余各顶点的最短路径 7.6.2 每一对顶点之间的最短路径 第8章 动态存储管理 8.1 概述 8.2 可利用空间表及分配方法 8.3 边界标识法 8.3.1 可利用空间表的结构 8.3.2 分配算法 8.3.3 回收算法 8.4 伙伴系统 8.4.1 可利用空间表的结构 8.4.2 分配算法 8.4.3 回收算法 8.5 无用单元收集 8.6 存储紧缩 第9章 查找 9.1 静态查找表 9.1.1 顺序表的查找 9.1.2 有序表的查找 9.1.3 静态树表的查找 9.1.4 索引顺序表的查找 9.2 动态查找表 9.2.1 二叉排序树和平衡二叉树 9.2.2 B树和B+树 9.2.3 键树 9.3 哈希表 9.3.1 什么是哈希表 9.3.2 哈希函数的构造方法 9.3.3 处理冲突的方法 9.3.4 哈希表的查找及其分析 第10章 内部排序 10.1 概述 10.2 插入排序 10.2.1 直接插入排序 10.2.2 其他插入排序 10.2.3 希尔排序 10.3 快速排序 10.4 选择排序 10.4.1 简单选择排序 10.4.2 树形选择排序 10.4.3 堆排序 10.5 归并排序 10.6 基数排序 10.6.1 多关键字的排序 10.6.2 链式基数排序 10.7 各种内部排序方法的比较讨论 第11章 外部排序 11.1 外存信息的存取 11.2 外部排序的方法 11.3 多路平衡归并的实现 11.4 置换一选择排序 11.5 最佳归并树 第12章 文件 12.1 有关文件的基本概念 12.2 顺序文件 12.3 索引文件 12.4 ISAM文件和VSAM文件 12.4.1 ISAM文件 12.4.2 VSAM文件 12.5 直接存取文件(散列文件) 12.6 多关键字文件 12.6.1 多重表文件 12.6.2 倒排文件 附录A 名词索引 附录B 函数索引 参考书目
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值