数据库系统工程师自己总结的（万字）知识点 ——需要自取

长岛有冰茶丶

已于 2023-05-30 14:16:14 修改

阅读量1.4k

点赞数 3

文章标签：数据库 java 开发语言

于 2023-05-03 15:31:44 首次发布

本文链接：https://blog.csdn.net/m0_56402953/article/details/130473553

版权

需要用到的单词
READ UNCOMMITTED 读未提交
READ COMMITTED 读已提交
REPEATABLE READ 可重复读
SERIALIZABLE （serializable）串行化

REFERENCES（references）注意有个S
FOREIGN 外键
ON DELETE CASCADE/SER NULL/RESTRICT/NO ACTION外键级联约束
CREATE ASSERTION name CHECK（）全局约束，断言格式
ALTER 添加删除修改列 ALTER TABLE S ADD zap char(6)
modify：MODIFY 列名数据类型只能用于修改字段的属性
CLUSTER UNIQUE 聚簇索引和唯一索引
WITH CHECK OPTION 表示视图更新操作时会自动加上前面的条件
UNION并集去重 UNIONALL并集不去重 INTERSECT两个查询操作的交集 EXCEPT差集
WITH语句临时视图的建立

GRANT ON table TO who WITH GRANT OPTION
ALL PRIVILEGES全部权力
REVOKE ON FROM [RESTRICT只收回指定用户权限,CASCADE收回指定用户及其授予其他用户的权限]

CREATE TRIGGER name BEFORE/AFTER 权 of 列 on table REFERENCING(referencing)临时取名 WITH 条件
DECLARE 声明变量

更新一个包含索引的表需要比更新一个没有索引的表花费更多的时间，这是由于索引本身也需要更新。因此，理想的做法是仅仅在常常被搜索的列（以及表）上面创建索引。

CAP理论（C：一致性 A ：可用性 P：分区容忍性）
BASE（基本可用，软状态，最终一致性）
CAP中：选择CP，一致性和分区容忍性，要考虑ACID理论；选择AP，可用性和分区容忍性
，那就要考虑BASE系统；选择CA（一致性和可用性），如果网络发生分区的时候，将不能进行完整的操作。

左连接的含义是限制表2中的数据必须满足连接条件，而不管表1中的数据是否满足连接条件，均输出表1的内容。右连接的含义是限制表1中的数据必须满足连接条件，而不管表2中的数据是否满足连接条件，均输出表2的内容。

关系代数表达式的优化
1、提早执行选取运算
2、合并乘积与其后的选择运算为连接运算
3、将投影运算与其后的其他运算同时进行
4、将投影运算和其后的二目运算结合起来
5、在执行连接前对关系适当地预处理，就能快速的找到连接的元组
6、存储公共子表达式

sql中的连接查询有inner join(内连接)、left join(左连接)、right join (右连接)、full join (全连接)四种方式。1.inner join，在两张表进行连接查询时，只保留两张表中完全匹配的结果集。2.left join，在两张表进行连接查询时，会返回左表所有的行，即使在右表中没有匹配的记录。3.right join，在两张表进行连接查询时，会返回右表所有的行，即使在左表中没有匹配的记录。4.full join，在两张表进行连接查询时，返回左表和右表中所有没有匹配的行。

数据模型（Data Model）是现实世界数据特征的抽象，或者说是现实世界的数据模拟。数据库中，用数据模型来抽象地表示现实世界的数据和信息。数据模型的三要素是：数据结构、数据操作及完整性约束条件。

在UNIX/Linux系统中，telnet服务的默认端口是23，ftp的端口号是21和20。

关系代数表达式的查询优化准则如下：• 提早执行选择运算，目的：减少中间结果。• 合井乘积与选择运算为连接运算，目的：避免扫描大的关系。• 将投影运算与其他运算同时进行，目的：避免重复扫描关系。• 将投影运算与二目运算结合起来。目的：减少扫描关系的遍数。• 在执行连接前对关系适当地预处理：索引连接法，排序合并连接法。• 存储公共子表达式。目的;只需检索中间结果，无须重复计算。

完整性约束：防止的是对数据的意外破环。实体完整性：规定基本关系R的主属性A不能取空。用户自定义完整性：就是针对某一具体关系数据库的约束条件，反映某一具体应用所涉及的数据必须满足的语义要求，由应用的环境决定。如：年龄必须为大于0小于150的整数。参照完整性/引用完整性：规定，若F是基本关系R的外码，它与基本关系S的主码K，相对应（基本关系R和S不一定是不同的关系），则R中每个元组在F上的值必须为：或者取空值；或者等于S中某个元组的主码值。本题中属性完整性约束不属于关系的完整性约束。

模2运算是一种二进制算法，属于CRC校验技术中的核心部分，具体用的模二除算法。垂直奇偶校验又称为纵向奇偶校验，它是将要发送的整个信息块分为定长p位的若干段（比如说q段），每段后面按"1"的个数为奇数或偶数的规律加上一位奇偶位。水平奇偶校验又称为横向奇偶校验，它是对各个信息段的相应位横向进行编码，产生一个奇偶校验冗余位。奇偶校验用的是模二加运算法则。

社会工程攻击，是一种利用"社会工程学" 来实施的网络攻击行为。在计算机科学中，社会工程学指的是通过与他人的合法地交流，来使其心理受到影响，做出某些动作或者是透露一些机密信息的方式。这通常被认为是一种欺诈他人以收集信息、行骗和入侵计算机系统的行为。所以，ABD都符合社会攻击学的特点。

在Windows系统中的磁盘碎片整理程序可以分析本地卷，使每个文件或文件夹占用卷上连续的磁盘空间，合并卷上的可用空间使其成为连续的空闲区域，这样系统就可以更有效地访问文件或文件夹，以及更有效地保存新的文件和文件夹。通过合并文件和文件夹，磁盘碎片整理程序还将合并卷上的可用空间，以减少新文件出现碎片的可能性。合并文件和文件夹碎片的过程称为碎片整理。

长期调度，又称为作业调度或高级调度，这种调度将已进入系统并处于后备状态的作业按某种算法选择一个或一批，为其建立进程，并进入主机，当该作业执行完毕时，还负责回收系统资源，在批处理系统中，需要有作业调度的过程，以便将它们分批地装入内存，在分时系统和实时系统中，通常不需要长期调度。它的频率比较低，主要用来控制内存中进程的数量。中期调度，又称为交换调度。它的核心思想是能将进程从内存或从CPU竞争中移出，从而降低多道程序设计的程度，之后进程能被重新调入内存，并从中断处继续执行，这种交换的操作可以调整进程在内存中的存在数量和时机。其主要任务是按照给定的原则和策略，将处于外存交换区中的就绪状态或等待状态的进程调入内存，或把处于内存就绪状态或内存等待状态的进程交换到外存交换区。短期调度，又称为进程调度、低级调度或微观调度。这也是通常所说的调度，一般情况下使用最多的就是短期调度。它的主要任务是按照某种策略和算法将处理机分配给一个处于就绪状态的进程，分为抢占式和非抢占式。

根据操作系统内核是否对线程可感知，可以把线程分为内核线程和用户线程。用户线程由应用程序所支持的线程实现，内核意识不到用户级线程的实现。内核级线程又称为内核支持的线程。所以，线程可以实现在内核空间和用户空间。

在TCP/IP协议栈中，应用层协议数据单元为消息或者报文。其中段是传输层，用户数据报是网络层，帧是数据链路层。物理层是比特流。应用层——消息、报文（message）传输层——数据段（segment）网络层——分组、数据包（packet）链路层——帧（frame）物理层——比特流

标准SQL中提供了简单的约束的定义语句，但对于复杂的约束，无法用SQL提供的约束定义语句，而是要通过编写程序来实现，这种程序会在数据更新操作时（INSERT、 UPDATE和DELETE指令）自动启动用户的程序进行执行，即触发器机制。

数据的转储分为静态转储和动态转储、海量转储和增量转储。 ①静态转储和动态转储。静态转储是指在转储期间不允许对数据库进行任何存取、修改操作：动态转诸是在转储期间允许对数据库进行存取、修改操作，故转储和用户事务可并发执行。 ②海量转储和增量转储。海量转储是指每次转储全部数据：增量转储是指每次只转储上次转储后更新过的数据。综上所述，假设系统中有运行的事务，若要转储全部数据库应采用动态全局转储方式。

数据控制功能包括对数据库中数据的安全性、完整性、并发和恢复的控制。安全性是指保护数据库以防止不合法的使用所造成的数据泄露、更改或破坏。完整性是指数据库的正确性和相容性，是防止合法用户使用数据库时向数据库加入不符合语义的数据。保证数据库中数据是正确的，避免非法的更新。并发控制是指在多用户共享的系统中，许多用户能同时对同一数据进行操作时，保证数据库的完整性不受破坏，避免用户得到不正确的数据。故障恢复主要是指恢复数据库本身，即在故障引起数据库当前状态不一致后，将数据库恢复到某个正确状态或一致状态。

数据模型的三要素有：数据结构：是所研究的对象类型的集合，是对系统静态特性的描述。数据操作：对数据库中各种对象（型）的实例（值）允许执行的操作的集合，包括操作及操作规则。是对系统动态特性的描述。数据的约束：是一组完整性规则的集合。也就是说，对于具体的应用数据必须遵循特定的语义约束条件，以保证数据的正确、有效、相容。

在数据库系统中，模式用于对数据库中全部数据的逻辑结构和特征进行描述，即模式用于描述概念视图层次上的数据特性。外模式也称为用户模式或子模式，是用户与数据库系统的接口，是用户用到的那部分数据的描述，即外模式用于描述用户视图层次上的数据特性。内模式也称为存储模式，是数据物理结构和存储方式的描述，即内模式用于描述内部视图层次上的数据特性，是数据在数据库内部的表示方式。

数据仓库是一个面向主题的、集成的、不可更新的、随时间不断变化的数据集合，它用于支持企业或组织的决策分析处理。与传统的网状数据库、层次数据库和关系数据库不同，其数据组织是基于多维模型的，由一个事实表和多个维度表组成。

简单地说，数据挖掘是从海量数据中提取或挖掘知识。数据挖掘对数据进行描述和预测。分类、关联规则、聚类和时序分析是数据挖掘的重要分析方法。分类分析首先找出描述和区分数据类或概念的模型，以便能够使用模型来预测类标号未知的对象类。本题中，年收入超过80000元的年轻妇女最有可能购买小型运动车是属于分类分析得到的一个预测结论。关联规则分析用于发现描述数据中强关联特征的模式。聚类指在发现紧密相关的观测值组群，使得与不同组群的观察值相比，属于同一组群内的观测值尽量相似。而时序分析，也称为演变分析，描述行为随着时间变化的对象的规律或趋势，并对其建模。

四种隔离级别 ① Serializable （串行化）：可避免脏读、不可重复读、幻读的发生。 ② Repeatable read （可重复读）：可避免脏读、不可重复读的发生。 ③ Read committed （读已提交）：可避免脏读的发生。 ④ Read uncommitted （读未提交）：最低级别，任何情况都无法保证。

系统故障发生时，有两个原因会导致数据库的不一致，一是未完成的事务对数据库的更新已写入非易失性存储介质;二是已提交的事务对数据库的更新尚存留在缓冲区中，未写入非易失必存储介质中。恢复过程需要对未完成的事务进行撤销操作，对已完成的事务进行重做操作。日志文件记录的是对数居库的所有更新，只需根据日志文件找出故障前已完成和未完成的事务进行相应操作即可恢复到故障前的数据库一致性状态。

事务故障是指由于事务程序运行过程中，因为非预期的原因，导致在运行过程中不能达到预期的终点（COMMIT或显示的ROLLBACK），造成数据库的不一致。事务故障的恢复，即需要将产生故障的事务已经完成的对数据库的修改撤销。事务对数据库的修改内容被严格按照执行的时间顺序记录在日志中，可以通过逆向扫描日志文件，将产生故障的事务对数据库的操作逐一复原(UNDO)，直到事务开始标志，就像该事务未执行一样，即完成恢复。

存储过程（Stored Procedure）是在大型数据库系统中，一组为了完成特定功能的SQL 语句集，存储在数据库中，经过第一次编译后再次调用不需要再次编译，用户通过指定存储过程的名字并给出参数（如果该存储过程带有参数）来执行它。能够调用别的存储过程，但是不能删除。

死锁的解除由DBMS来完成。需要在造成死锁的多个事务中选择一个回滚代价最小的事务进行强制回滚，并将该事务置于事务队列中稍后执行。图中事务T,对数据B己经做了修改，事务Tz只是读取了数据A，相对而言，回滚事务Tz代价最小。

幻读是指当事务不独立执行时，插入或者删除另一个事务当前影响的数据而发生的一种类似幻觉的现象。举个例子，某事务在检查表中的数据数count时，是10，过一段时间之后再查是11，这就发生了幻读，之前的检测获取到的数据如同幻觉一样。

不可重复读，有时候也会说成“读已提交”。什么意思呢，就是在一个事务内，多次读取同一个数据，却返回了不同的结果。实际上，这是因为在该事务间隔读取数据的期间，有其他事务对这段数据进行了修改，并且已经提交，就会发生不可重复读事故。

脏读也俗称“读未提交”，顾名思义，就是某一事务A读取到了事务B未提交的数据

病毒文件名称一般分为三部分，第一部分表示病毒的类型，如Worm表示蠕虫病毒，Trojan表示特洛伊木马，Backdoor表示后门病毒，Macro表示宏病毒等。宏病毒感染的对象是使用某些程序创建的文本文档、数据库、电子表格等文件。

计算机病毒的分类方法有许多种，按照最通用的区分方式，即根据其感染的途径以及采用的技术区分，计算机病毒可分为文件型计算机病毒、引导型计算机病毒、宏病毒和目录型计算机病毒。文件型计算机病毒感染可执行文件（包括EXE和C OM文件）。引导型计算机病毒影响软盘或硬盘的引导扇区。目录型计算机病毒能够修改硬盘上存储的所有文件的地址。宏病毒感染的对象是使用某些程序创建的文本文档、数据库、电子表格等文件，从文件名可以看出 Macro.Melissa是一种宏病毒。

DNS实现负载均衡是通过循环复用来实现的，如果发现主机名的多个地址资源记录，则可用它循环使用包含在查询应答中的主机资源记录。默认情况下， DNS服务器的服务使用循环复用对资源记录进行排序，这些资源记录是在解析为多个映射的主机名应答中返回的。该功能用于对客户机使用 We b 服务器和其他频繁查询的多宿主计算机的负载平衡。要使循环复用正常工作，必须首先在该区域中注册所查询名称的多个主机资源纪录，并启用DN S服务器循环复用。如果DNS服务器禁止循环复用，那么这些查询的响应顺序以应答列表中资源记录在区域中存储时的静态排序为基础。

POP3服务器默认端口为110。

DHCP协议的功能是自动分配IP地址：FTP协议的作用是文件传输，使用的传输层协议为TCP。

IP电话（VoIP）是一种基于传输层中用户数据报协议（UDP）所提供服务的应用层协议。浏览网页所使用到的超文本传输协议（HTTP）、远程登录的Telnet协议、发送邮件的简单邮件传输协议（S MTP）等是基于传输控制协议（TCP）所提供服务的应用层协议。

在HTML语言中，可以通过使用<mailto>标签定义一个指向电子邮件地址的超级链接，通过该链接可以在Internet中发送电子邮件。

使用ping命令进行网络检测，按照由近及远原则首先执行的是ping127.0 0.1，其次是ping本地IP，再次是ping默认网关，最后是ping远程主机。

把局域网划分成多个不同的VLAN，使得网络接入不再局限二物理位置的约束，这样就简化了在网络中增加、移除和移动主机的操作，特别是动态配置的VLAN，无论主机在哪里，它都处于自己的VLA N中。VLAN内部可以相互通信，VLAN之间不能直接通信，必须经过特殊设置的路由器才可以连通。这样做的结果是，通过在较大的局域网中创建不同的VLAN，可以抵御广播风暴的影响，也可以通过设置防火墙来提高网络的安全性。VLAN并不能直接增强网络的安全性。

ASCII即美国信息互换标准代码，是一种基于拉丁字母的一套电脑编码系统。 SMTP传输的邮件报文采用的就是这种编码。 ZIP是一种计算机文件的压缩算法，能减少文件的大小，有利用数据存储和传输。 HTML即超文本标记语言，是用于描述网页文档的一种标记语言。我们上网浏览的网页很多就是采用这种格式。

DNS域名查询的次序是：本地的hosts文件→本地 DNS缓存→本地DNS服务器→根域名服务器。

默认情况下，FTP服务器的控制端口为21，数据端口为20。

在分时系统中是将把CPU的时间分成很短的时间片轮流地分配给各个终端用户，当系统中的用户数为 n、时间片为q时，那么系统对每个用户的响应时间等于n×q。

DNS域名查询的次序是：本地的hosts文件→本地 DNS缓存→本地DNS服务器→根域名服务器。

默认情况下，FTP服务器的控制端口为21，数据端口为20。

现实世界中事物之间的联系更多的是非层次关系的，用层次模型表示这种关系很不直观，网状克服了这一弊病，可以清晰的表示这种非层次关系。

用有向图结构表示实体类型及实体间联系的数据结构模型称为网状模型（Network Model）。
网状模型取消了层次模型的不能表示非数状结构的限制，两个或两个以上的结点都可以有多个双亲结点，则此时有向树变成了有向图，该有向图描述了网状模型。

网状模型中以记录为数据的存储单位。记录包含若干数据项。网状数据库的数据项可以是多值的和复合的数据。每个记录有一个惟一地标识它的内部标识符，称为码（DatabaseKey,DBK），它在一个记录存入数据库时由DBMS自动赋予。DBK可以看作记录的逻辑地址，可作记录的替身，或用于寻找记录。网状数据库是导航式（Navigation）数据库，用户在操作数据库时不但说明要做什么，还要说明怎么做。例如在查找语句中不但要说明查找的对象，而且要规定存取路径。

在数据库中定义满足：（1）有且只有一个结点没有双亲结点，这个结点称为根结点；（2）根以外的其他结点有且只有一个双亲结点两个条件的记录以及它们之间联系的集合为层次模型 [1] 。它的基本逻辑结构可以用一棵倒置的树表示 [2] 。层次数据模型中最基本的数据关系是基本层次关系，它代表两条记录之间一对多（包括一对一）的联系 [1] 。数据库中有且仅有一条记录无双亲，称为根结点，其他记录有且仅有一个双亲 [1] 。

层次模型是最早用于商用数据库管理系统的数据模型

Web 防火墙，Web Application Firewall（WAF），工作在第 7 层，可以识别和防范针对应用层的攻击，可以检测 SQL 注入、跨站脚本、网页篡改等攻击。

防火墙一般指的是传统的防火墙，一般工作在第三、四层。

堡垒机隔离了终端设备对网络服务器资源的直接访问，能够监控和记录运维人员对服务器资源的操作
行为，可以起到审计监控的功能。

入侵检测系统，IDS，intrusion detection system，入侵检测系统最核心的功能是对一些访问的事件进行分析，从而发现一些违反安全策略的行为。

C 语言函数是一段具有独立功能的程序单元，函数是先声明后引用，函数的定义包括函数首
部和函数体，函数是不允许嵌套定义

NoSQL是指非关系型数据库，是对不同于传统的关系型数据库DBMS的统称。有
几种典型的NoSQL数据库。

文档存储数据库是以文档为存储信息的基本单位，如BaseX,CouchDB,MongoDB
等。

键值存储数据库支持简单的键值存储和提取，具有极高的并发读写性能，如
Dynamo,Memcached,Redis等。

图形存储数据库利用计算机将点、线、面等图形基本元素按照一定的数据结构进行
存储，如FlockDB、Neo4i等。

多值数据库系统是一种分布式数据库系统，提供了一个通用的数据集成与访问平本题考查NoSQL的相关知识。

NoSQL是指非关系型数据库，是对不同于传统的关系型数据库DBMS的统称。有
几种典型的NoSQL数据库。

文档存储数据库是以文档为存储信息的基本单位，如BaseX,CouchDB,MongoDB
等。
键值存储数据库支持简单的键值存储和提取，具有极高的并发读写性能，如
Dynamo,Memcached,Redis等。

图形存储数据库利用计算机将点、线、面等图形基本元素按照一定的数据结构进行
存储，如FlockDB、Neo4i等。

多值数据库系统是一种分布式数据库系统，提供了一个通用的数据集成与访问平台，屏蔽了各种数据库系统不同的访问方法和用户界面，给用户呈现出一个访问多种数据库的公共接口。

串是由零个或多个任意字符组成的有限序列。串可以采用多种存储方式，比如顺序存储方式，
块链存储方式等。

生物特征识别技术主要是指通过人类生物特征进行身份认证的一种技术，这里的生物特征通
常具有唯一的（与他人不同）、可以测量或可自动识别和验证、遗传性或终身不变等特点。

所谓生物识别的核心在于如何获取这些生物特征，并将之转换为数字信息，存储于计算机中，利用可靠的匹配算法来完
成验证与识别个人身份的过程。身体特征包括：指纹、静脉、掌型、视网膜、虹膜、人体气味、脸型、甚至血管、DNA、骨骼等。

HTTPS：HTTPS（全称：Hyper Text Transfer Protocol over SecureSocket Layer），是以安全为目标的 HTTP 通道，在 HTTP 的基础上通过传输加密和身份认证保证了传输过程的安全性。

SOCKS：防火墙安全会话转换协议（Socks: Protocol for sessions traversal across firewall securely） SOCKS协议提供一个框架，为在 TCP 和 UDP 域中的客户机/服务器应用程序能更方便安全地使用网络防火墙所提供的服务。协议工作在 OSI 参考模型的第 5 层（会话层），使用 TCP 协议传输数据。

SSH：SSH 为 Secure Shell 的缩写，为建立在应用层基础上的安全协议。SSH 是较可靠，专为远程登录会话和其他网络服务提供安全性的协议。

互联网安全协议（英语：Internet Protocol Security，缩写为 IPsec），是一个协议簇，通过对 IP 协议的分组进行加密和认证来保护 IP 协议的网络传输协议簇（一些相互关联的协议的集合）。属于网络层安全协议。

I/O 接口是主机与被控对象进行信息交换的纽带。主机通过 I/O 接口与外部设备进行数据交换。
绝大部分 I/O 接口电路都是可编程的，即它们的工作方式可由程序进行控制。
基本功能包括：
①进行端口地址译码设备选择。
②向 CPU 提供 I/O 设备的状态信息和进行命令译码。
③进行定时和相应时序控制。
④对传送数据提供缓冲，以消除计算机与外设在“定时”或数据处理速度上的差异。
⑤提供计算机与外设间有关信息格式的相容性变换。提供有关电气的适配。
⑥还可以中断方式实现 CPU 与外设之间信息的交换。

指令周期：是指取出并执行一条指令所需的时间，也称为机器周期。・CPU周期：又称机器周期，机器内部各种操作大致可归属为对CPU内部的操作和对主存的操作两大类，由于CPU内部操作速度较快，CPU访问一次内存所花的时间较长，因此用从内存读取一条指令字的最短时间来定义，这个基准时间就是CPU周期(机器周期)。一个指令周期常由若干CPU周期构成。・中断周期：中断响应周期是指当CPU采用中断方式实现主机与I/O交换信息时，CPU在每条指令执行阶段结束前，都要发中断查询信号，以检测是否有某个I/O提出中断请求。如果有请求，CPU则要进入中断响应阶段，又称中断周期。・时钟周期：指的是CPU处理动作的最小单位。它们之间的关系是：一个指令周期可以划分为一个或多个总线周期，根据指令的不同，需要的总线周期也不同；而一个总线周期又可以分为几个时钟周期，通常是4个时钟周期，但也有些计算机可能不同。

商标权的保护期限是有效期为 10 年（若注册人死亡或倒闭 1 年后，未转移则可注销，期满后 6 个月内必须续注）。

计算机病毒一般都需要宿主程序，病毒将自己的代码写到宿主程序中，当该程序运行时先执
行写入的病毒程序，从而造成感染和破坏。而蠕虫病毒不需要宿主程序，它是一段独立的程序或代码，因此也就避免了受宿主程序的牵制，可以不依赖于宿主程序而独立运行，从而主动地实施攻击。

宏病毒是一种寄存在文档或模板的宏中的计算机病毒。一旦打开这样的文档，其中的宏就会被执行，于是宏病毒就会被激活，转移到计算机上，并驻留在 Normal 模板上。从此以后，所有自动保存的文档都会“感染”上这种宏病毒，而且如果其他用户打开了感染病毒的文档，宏病毒又会转移到他的计算机上。

计算机木马病毒是指隐藏在正常程序中的一段具有特殊功能的恶意代码，是具备破坏和删除文件、发送密码、记录键盘和攻击 Dos 等特殊功能的后门程序。

对称加密算法包括：DES（数据加密标准）、AES。非对称加密算法包括：RSA。MD5 是消息摘要算法。

Hash,一般翻译做散列、杂凑，或音译为哈希，是把任意长度的输入通过散列算法变换成固定长度的输出，该输出就是散列值。这种转换是一种压缩映射，也就是，散列值的空间通常远小于输入的空间，不同的输入可能会散列成相同的输出，所以不可能从散列值来确定唯一的输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。哈希表是根据键(Key)而直接访问在内存存储位置的数据结构。

在密码学里面，随机预言机（英语：Random or acle)是一部预言机，对任何输入都回传一个真正均匀随机的输出，不过对相同的输入，该预言机每次都会用同一方法输出。换句话说，随机预言机是一个将所有可能输入与输出作随机映射的函数。

字典攻击：在破解密码或密钥时，逐一尝试用户自定义词典中的可能密码（单词或短语）的攻击方式。与暴力破解的区别是，暴力破解会逐一尝试所有可能的组合密码，而字典式攻击会使用一个预先定义好的单词列表（可能的密码)。

密码盐：在密码学中，是指通过在密码任意固定位置插入特定的字符串，让散列后的结果和使用原始密码的散列结果不相符，这种过程称之为“加盐”。如果密码盐泄露，黑客可以利用他们数据字典中的密码，加上泄露的密码盐，然后散列，然后再匹配。所以如果密码盐泄露，字典攻击就会和不加盐时的效果一样。

总线宽度是指总线的位数，即数据信号的并行传输能力，也体现总线占用的物理空间和成本：总线的带宽是指总线的最大数据传输率，即每秒传输的数据总量。总线宽度与时钟频率共同决定了总线的带宽。32bit/8=4Byte,200MHz/5x4Byte=160MB/s

算术移位时，对于负数其符号位可能需要特殊处理，逻辑移位中没有符号的概念，只是二进制位序列。

算术左移等同于乘以2的操作。

当系统中有多个中断请求时，中断系统按优先级进行排队。若在处理低级中断过程中又有高级中断申请中断，则高级中断可以打断低级中断处理，转去处理高级中断，等处理完高级中断后再返回去处理原来的低级中断，称为中断嵌套。实现中断嵌套用后进先出的栈来保护断点和现场最有效。

在计算机中，各类运算都等可以采用补码进行，特别是对于有符号数的运算。在计算机中设计补码的目的一是为了使符号位能与有效值部分一起参加运算，从而简化运算规则，使运算部件的设计更简单；二是为了使减法运算转换为加法运算，进一步简化计算机中运算器的线路设计。因此在计算机系统中常采用补码来表示和运算数据，原因是采用补码可以简化计算机运算部件的设计。

指令中的寻址方式就是如何对指令中的地址字段进行解释，以获得操作数的方法或获得程序转移地址的方法。常用的寻址方式有：·立即寻址。操作数就包含在指令中。·直接寻址。操作数存放在内存单元中，指令中直接给出操作数所在存储单元的地址。·寄存器寻址。操作数存放在某一寄存器中，指令中给出存放操作数的寄存器名。·寄存器间接寻址。操作数存放在内存单元中，操作数所在存储单元的地址在某个寄存器中。·间接寻址。指令中给出操作数地址的地址。·相对寻址。指令地址码给出的是一个偏移量(可正可负)，操作数地址等于本条指令的地址加上该偏移量。·变址寻址。操作数地址等于变址寄存器的内容加偏移量。题目给出的指令中，R1是寄存器，属于寄存器寻址方式，45是立即数，属于立即寻址方式。

终端设备与远程站点之间建立安全连接的协议是SSH。SSH为Secure Shell的缩写。

是由EF制定的建立在应用层和传输层基础上的安全协议。SSH是专为远程登录会话
和其他网络服务提供安全性的协议。利用SSH协议可以有效防止远程管理过程中的信息
泄露问题。SSH最初是UNX上的程序，后来又迅速扩展到其他操作平台。

机房安全属于物理安全，入侵检测属于网络安全，漏洞补丁管理属于系统安全，而
数据库安全则是应用安全。

显示分辨率是指显示器上能够显示出的像素点数目，即显示器在横向和纵向上能够
显示出的像素点数目。水平分辨率表明显示器水平方向（横向）上显示出的像素点数目，

垂直分辨率表明显示器垂直方向（纵向）上显示出的像素点数目。例如，显示分率为
1024X768则表明显示器水平方向上显示1024个像素点，垂直方向上显示768个像素点，
整个显示屏就含有796432个像素点。屏幕能够显示的像素越多，说明显示设备的分辨率
越高，显示的图像质量越高。显示深度是指显示器上显示每个像素点颜色的二进制位数。

本题考查软件过程模型的基础知识。

瀑布模型将软件生存周期各个活动规定为线性顺序连接的若干阶段的模型，规定了
由前至后，相互衔接的固定次序，如同瀑布流水，逐级下落。这种方法是一种理想的现
象开发模式，缺乏灵活性，特别是无法解决软件需求不明确或不准确的问题。
原型模型从初始的原型逐步演化成最终软件产品，特别适用于对软件需求缺乏准确
认识的情况。

增量开发是把软件产品作为一系列的增量构件来设计、编码、集成和测试，可以在
增量开发过程中逐步理解需求。

本题考查软件项目管理的基础知识。
风险是一种具有负面后果的、人们不希望发生的事件。风险管理是软件项目管理的
一项重要任务。在进行风险管理时，根据风险的优先级来确定风险控制策略，而优先级
是根据风险暴露来确定的。风险暴露是一种量化风险影响的指标，等于风险影响乘以风
险概率。风险影响是当风险发生时造成的损失。风险概率是风险发生的可能性。风险书
制是风险管理的一个重要活动。

本题考查数据库的基础知识。
数据字典(Data Dictionary,DD)是各类数据描述的集合，它是关于数据库中数据
的描述，即元数据，而不是数据本身。如用户将向数据库中输入什么信息，从数据库中
要得到什么信息，各类信息的内容和结构，信息之间的联系等。数据字典包括数据项、
数据结构、数据流、数据存储和处理过程5个部分（至少应该包含每个字段的数据类型
和在每个表内的主键、外键)。其中“数据项”通常包括数据项名，数据项含义说明、别
名、数据类型、长度、取值范围、取值含义、与其他数据项的逻辑关系。

本题考查程序语言基础知识。
程序运行时的用户内存空间一般划分为代码区、静态数据区、栈区和堆区，其中栈
区和堆区也称为动态数据区。全局变量的存储空间在静态数据区。

①关联分析Cction),目的是为了挖据出隐微在数据间的相互关系。若设
序列模式分析、分类分析和聚类分析·
尽A1,A2AP为Q城上的周性集，r为R上的一个关系，关于的关联规则表示为
X一B。其中XER,BER,且XB一。关联规则的矩阵形式为：矩阵r中，如果在行
X的每一列为1，则行B中各列趋向于为1。在进行关联分析的同时还需要计算两个参
数，最小置信度(Confidence)和最小支持度(Support)。前者用以过滤掉可能性过小的
规则，后者则用来表示这种规则发生的概率，即可信度。
②序列模式分析(Sequential Pattems):目的也是为了挖掘出数据之间的联系，但
它的侧重点在于分析数据间的前后关系（因果关系）。例如，将序列模式分析运用于商业，
经过分析，商家可以根据分析结果发现客户潜在的购物模式，发现顾客在购买一种商品
的同时经常购买另一种商品的可能性。在进行序列模式分析时也应计算置信度和支持度。
③分类分析(Classifiers):首先为每一个记录赋予一个标记（一组具有不同特征的
类别)，即按标记分类记录，然后检查这些标定的记录，描述出这些记录的特征。这些描
述可能是显式的，如一组规则定义；也可能是隐式的，如一个数学模型或公式。
④聚类分析(Clustering):聚类分析法是分类分析法的逆过程，它的输入集是一组
未标定的记录，即输入的记录没有作任何处理。目的是根据一定的规则，合理地划分记
录集合，并用显式或隐式的方法描述不同的类别。
在实际应用的DM系统中，上述四种分析方法有着不同的适用范围，因此经常被综
合运用。

本题考查数据挖掘基础知识。
数据挖掘就是应用一系列技术从大型数据库或数据仓库中提取人们感兴趣的信息
和知识，这些知识或信息是隐含的，事先未知而潜在有用的，提取的知识表示为概念、
规则、规律、模式等形式。也可以说，数据挖掘是一类深层次的数据分析。无论采用哪
种技术完成数据挖掘，从功能上可以将数据挖掘的分析方法划分为四种，即关联分析、

螺旋将瀑布模型与快速原型模型结合起来，并且加入两种模型均忽路了的风险分
析，适用于复杂的大型软件。

本题考查数据库应用系统的基础知识。
数据库的运行维护是由专门的数据库管理系统软件(DBMS)来负责的。CS结构
又称两层结构，由客户端运行应用程序：BS结构分为三层，客户端只需要浏览器显示
和简单的界面处理，Wb服务器上的应用程序负责业务处理并与数据库交互。

本题考查事务程序的基础知识。

事物的结束语句是ROLLBACK和COMMIT。当事务执行中出错时，使用
ROLLBACK对当前事务对数据库已做的更新进行撒销；事务所有指令执行完成后，用
COMMIT语句对数据库所做的更新进行提交。COMMIT WORK和ROLLBACK WORK
中的WORK可省略。

本题考查URL的基本知识。
RL由三部分组成：资源类型、存放资源的主机城名、资源文件名。
URL的一般语法格式为《带方括号D的为可选项)：
protocol ://hostname[:port]/path /filename
其中，pooc0l指定使用的传输协议，最常见的是HTTP或者HTTPS协议，也可以有其他协议，如lc、p、gopher、mms、ed2k等：hostname是指主机名，即存放资源的服务域名或者P地址；0t是指各种传输协议所使用的默认端口号，该选项是可选选项，例如hp的默认端口号为80，一般可以省略，如果为了安全考虑，可以更改默认的端口号，这时，该选项是必选的：p阳h是指路径，有一个或者多个“”分隔，一般用来
表示主机上的一个目录或者文件地址：filename是指文件名，该选项用于指定需要打开
的文件名称。

般情况下，一个URL可以采用“主机名域名”的形式打开指定页面，也可以单
独使用“域名”来打开指定页面，但是这样实现的前提是需进行相应的设置和对应。

把局域网划分成多个不同的VLAN,使得网络接入不再局限于物理位置的约束，这
样就简化了在网络中增加、移除和移动主机的操作，特别是动态配置的VLAN,无论主
机在哪里，它都处于自己的VLAN中。VLAN内部可以相互通信，VLAN之间不能直接
通信，必须经过特殊设置的路由器才可以连通。这样做的结果是，通过在较大的局域网
中创建不同的VLAN,可以抵御广播风暴的影响，也可以通过设置防火墙来提高网络的
安全性。VLAN并不能直接增强网络的安全性。

本题考查数据挖掘的基础知识。

K-Means和DBSCAN是两个经典的聚类算法，将相似的数据对象归类一组，不相
似的数据对象分开。K-meas算法基于对象之间的聚类进行聚类，需要输入聚类的个数。
DBSCAN算法基于密度进行聚类，需要确定阙值，两者的聚类结果均与输入参数关系很
大。DBSCAN可以处理不同大小和不同形状的簇，而K-means算法则不适合。若数据分
布密度变化大，则这两种算法都不适用。

本题考查数据挖掘的基础知识。
基于历史数据预测新数据所属的类型，类型已知（患心脏病/没有患心脏病），这是
一个典型的分类问题。在四个选项中，贝叶斯信念网络是一个分类算法，Apriori是一个
关联规则挖掘算法，K-means和EM都是聚类算法，因此正确选项为A。

在Liux操作系统中，只有一个根目录，根目录使用“/"”来表示。根目录是一个非常重要的目录，其他的文件目录均有根目录衍生而来。

按查找文件的起点不同可以将路径分为：绝对路径和相对路径。从根目录开始的路径称为绝对路径；从用户当前工作目录开始的路径称为相对路径，相对路径是随着当前工作目录的变化而改变的。

以下哪项服务实现了MySQL分库分表及读写分离的业务功能？

在数据库系统中，当视图创建完毕后，数据字典中存放的是视图定义。视图是从一个或者多个表或视图中导出的表，其结构和数据是建立在对表的查询基础上的。和真实的表一样，视图也包括几个被定义的数据列和多个数据行，但从本质上讲，这苎数据列和数据行来源于其所引用的表。因此，视图不是真实存在的基础表而是一个虚拟表，视图所对应的数据并不实际地以视图结构存储在数据库中，而是存储在视图所引用的基本表中。

在IE浏览器中，安全等级从可信站点、本地Intra net、Internet到受限站点默认情况下依次为低、中低、中、高，逐步提升，如下图所示。

总线宽度是指总线的位数，即数据信号的并行传输能力，也体现总线占用的物理空间和成本；总线的带宽是指总线的最大数据传输率，即每秒传输的数据总量。总线宽度与时钟频率共同决定了总线的带宽。32bit/8=4Byte,200MHz/5x4Byte=160MB/s

深度优先搜索DFS：一条路走到黑广度优先搜索BFS：一条路到下一条，下一条走完所有再到下一条邻接矩阵：就是二维数组邻接表：使用链表表示

程序被加载到内存后开始运行，当CPU执行一条指令时，先把它从内存储器取到缓冲寄存器DR中，再送入IR暂存，指令译码器根据IR的内容产生各种微操作指令，控制其他的组成部件工作，完成所需的功能。程序计数器(PC)具有寄存信息和计数两种功能，又称为指令计数器。程序的执行分两种情况，一是顺序执行，二是转移执行。在程序开始执行前，将程序的起始地址送入PC,该地址在程序in载到内存时确定，因此Pc的内容即是程序第一条指令的地址。执行指令时，CPU将自动修改PC的内容，以便使其保持的总是将要执行的下一条指令的地址。由于大多数指令都是按顺序来执行的，所以修改的过程通常只是简单的对PC加1。当遇到转移指令时，后继指令的地址根据当前指令的地址加上一个向前或向后转移的位移量得到，或者根据转移指令给出的直接转移地址得到。

算术移位时，对于负数其符号位可能需要特殊处理，逻辑移位中没有符号的概念，只是二进制位序列。算术左移等同于乘以2的操作。

流水线吞吐率为流水线周期的倒数，而流水线周期为最长流水段操作时间。

总线是连接计算机有关部件的一组信号线，是计算机中用来传送信息代码的公共通填。采用总线结构主要有以下优点：简化系统结构，便于系统设计制造；大大减少了连线数目，便于布线，减小体积，提高系统的可靠性；便于接口设计，所有与总线连接的设备均采用类似的接口；便于系统的扩充、更新与灵活配置，易于实现系统的模块化；便于设备的软件设计，所有接口的软件就是对不同的口地址进行操作；便于故障诊断和维修，同时也降低了成本。

计算机在执行程序过程中，当遇到急需处理的事件时，暂停当前正在运行的程序，转去执行有关服务程序，处理完后自动返回原程序，这个过程称为中断。中断是一种非常重要的技术，输入输出设备和主机交换数据、分时操作、实时系统、计算机网络和分布式计算机系统中都要用到这种技术。为了提高响应中断的速度，通常把所有中断服务程序的入口地址（或称为中断向量）汇集为中断向量表。

寻址方式是指寻找操作数或操作数地址的方式。指令系统中采用不同寻址方式的目的是为了在效率和方便性上找一个平衡。立即数寻址和寄存器寻址在效率上是最快的，但是寄存器数目少，不可能将操作数都存入其中等待使用，立即数的使用场合也非常有限，这样就需要将数据保存在内存中，然后使用直接寻址、寄存器间接寻址、寄存器相对寻址、基址加变址寻址、相对基址及变址寻址等寻址方式将内存中的数据移入寄存器中。

VLIW超长指令字的简称

海明校验码中，n表示数据位的数量，k表示校验位的数量。n和k的关系可以通过以下公式计算得出： 2^k ≥ n + k + 1
其中，2^k表示校验位的组合种数，n+k+1表示数据位和校验位的总位数。这个公式可以保证海明码能够检测和纠正多达k位的错误。

海明校验码是一种用于检测和纠正数据传输错误的技术。它通过在待传输的数据中添加冗余信息，以便在数据传输过程中出现错误时，能够检测出错误并进行纠正。

具体来说，海明校验码将待传输的数据按照一定规则分成若干个子字节，然后每个子字节后面添加几个校验位，以便于检测和纠正数据传输错误。这些校验位的数量取决于海明码的级别，级别越高，冗余位越多，可检测和纠正的错误也就越多。

当数据传输时，接收方会根据发送方发送的数据和校验位计算出一个校验和，然后将此校验和与接收到的校验码进行比较。如果这两者不一致，表示数据传输中出现了错误，接收方可以使用校验位进行错误的定位和修正，从而实现数据传输的可靠性。

海明校验码主要应用于数字通信和计算机存储中，广泛用于数据传输、数据存储和数据备份等领域，能够有效地确保数据的完整性和可靠性。