数据挖掘概念与技术复习

2021.6.27 考完了,说一下,选择,填空今年有些更新,但是一些重点的还是包括,填空就是实验好好做,会涉及实验的知识,大题和计算,就是老师给你说的。最后综述,今年二选一,不少于500字,我选的第一个,大意是设计一个系统,你的见解,我就直接参考我下面写的系统设计原则写的,OK了,考完收工!

选择题

  1. 下面不属于数据挖掘迭代序列的是( C )
    A、数据清理 B、数据集成 C、数据删除 D、数据变换

  2. 属性(attribute)是一个数据字段,表示数据对象的一个特征。下面不属于典型的属性分类的是( D )
    A、标称属性(nominal) B、二元属性(binary) C、序数属性(ordinal) D、单值属性(Single-Valued)
    注释:
    类型:
    标称属性(nominal):其值是一些符号或者事物的名称。
    二元属性(binary):是一种标称属性,只有两个状态:0或1。
    序数属性(ordinal:)其可能的值之间具有有意义的序或者秩评定(ranking),但是相继值之间的差是未知的。
    数值属性(numeric)
    区间标度属性(interval-scaled):使用相等的单位尺度度量。值有序,可以评估值之间的差,不能评估倍数。没有绝对的零点。
    比率标度属性(ratio-scaled):具有固定零点的数值属性。值有序,可以评估值之间的差,也可以说一个值是另一个的倍数。
    标称、二元和序数属性都是定性的,即只描述对象的特征,不给出实际的大小。
    离散属性(discrete Attribute):具有有限或者无限可数个值。可以用或者不用整数表示。
    连续属性(Continuous Attribute):属性值为实数。一般用浮点变量表示。如果属性不是离散的,则它是连续的。

  3. 关于相似性(Similarity)描述不正确的是( A )
    A、数值越高表明相似性越小
    B、取值范围不一定要在[0,1]区间
    C、通常取值范围为[0,1]
    D、两个对象相似程度的数量表示
    注释:
    相似性;两个对象相似程度的数量表示; 数值越高表明相似性越大; 通常取值范围为[0,1];
    相异性:两个对象不相似程度的数量表示;数值越低表明相似性越大;相异性的最小值通常为0;相异性的最大值(上限)是不同的

  4. 不属于现实世界的数据的典型特征的是( B )
    A、不完整的:缺少属性值或某些感兴趣的属性,或仅包含聚集数据。
    B、无冗余的:通过规范化的设计和存储,已经没有冗余出现。
    C、不一致的:采用的编码或表示不同,如属性名称不同。
    D、含噪声的:包含错误或存在偏离期望的离群值。

  5. 标称数据的概念分层生成方法不包括( C )
    A、由用户在模式级显式地说明属性的部分序。
    B、由专家在模式级显式地说明属性的部分序。
    C、转换为二进制后自动分层。
    D、通过显式数据分组说明分层结构的一部分。
    注释:
    由用户或专家在模式级显式地说明属性的部分序;
    通过显式数据分组说明分层结构的一部分。
    说明属性集,但不说明它们的偏序,然后系统根据算法自动产生属性的序,构造有意义的概念分层。
    对只说明部分属性集的情况,则可根据数据库模式中的数据语义定义对属性的捆绑信息,来恢复相关的属性。

  6. 下面不属于数据仓库的特点是( C )
    A、面向主题的 B、集成的 C、数据可以随时更改的 D、随时间变化的
    注释:
    数据仓库的特征:
    面向主题:是数据仓库显著区别于关系数据库系统的一个特征;
    数据集成:一个数据仓库是通过集成多个异种数据源来构造的; 使用数据清理和数据集成技术。
    时变的:数据仓库是从历史的角度提供信息;数据仓库的时间范围比操作数据库系统要长的多;数据仓库中的每一个关键结构都隐式或显式地包含时间元素,而操作数据库中的关键结构可能就不包括时间元素。
    非易失性:尽管数据仓库中的数据来自于操作数据库,但他们却是在物理上分离保存的。

  7. 关于数据立方体,不正确的是( A )
    A、数据立方体就是一种汇总,处理时间短,操作非常容易
    B、数据立方体有利于多维数据的联机分析处理
    C、数据立方体使得从不同的角度对数据进行观察成为可能
    C、面临的挑战:海量数据,有限的内存和时间
    注释:
    (1)数据立方体有利于多维数据的联机分析处理;数据立方体使得从不同的角度对数据进行观察成为可能。
    (2)方体计算(物化)的挑战:海量数据,有限的内存和时间;

  8. 关于频繁模式,不正确的是( B )
    A、频繁模式是频繁的出现在数据集中的模式
    B、频繁模式是将数据集中的数据,分到不同的簇中
    C、频繁模式的动机:发现数据中蕴含的内在规律
    D、频繁模式的应用:购物篮分析、WEB 日志(点击流)分析、捆绑销售、DNA 序列分析等
    注释:
    (1)频繁模式是频繁出现在数据集中的模式;
    (2)动机:发现数据中蕴含的内在规律;
    (3)应用:购物篮分析、WEB日志(点击流)分析、捆绑销售、DNA序列分析等。

  9. 关联规则的两个兴趣度度量,描述不正确的是( D )
    A、一个叫支持度
    B、一个叫置信度
    C、通常,如果关联规则同时满足最小支持度阈值和最小置信度阈值,则此关联规则是有趣的
    D、所有挖掘出来的规则,都是有趣的
    注释:
    (1)关联规则的两个兴趣度度量:支持度和置信度
    (2)规则的支持度(support)和置信度(confidence)是规则兴趣度的两种度量。它们分别反映所发现规则的有用性和确定性。
    (3)通常,如果关联规则同时满足最小支持度阈值和最小置信度阈值,则此关联规则是有趣的

  10. Apriori 算法主要的挑战,不包括( A )
    A、要一次性将所有数据用树形结构装入内存
    B、要对数据进行多次扫描
    C、会产生大量的候选项集
    D、对候选项集的支持度计算非常繁琐
    注释:
    (1)Apriori算法是挖掘布尔关联规则频繁项集的算法;
    (2)Apriori算法利用频繁项集性质的先验知识(prior knowledge),通过逐层搜索的迭代方法,即将k-项集用于探察(k+1)-项集,来穷尽数据集中的所有频繁项集。
    (3)Apriori算法利用的是Apriori性质:频繁项集的所有非空子集也必须是频繁的。
    1) A U B模式不可能比A更频繁的出现
    2)Apriori算法是反单调的,即一个集合如果不能通过测试,则该集合的所有超集也不能通过相同的测试。
    3)Apriori性质通过减少搜索空间,来提高频繁项集逐层产生的效率
    (4)Apriori算法由连接和剪枝两个步骤组成。
    (5)Apriori算法主要的挑战:
    1)要对数据进行多次扫描;
    2)会产生大量的候选项集;
    3)对候选项集的支持度计算非常繁琐;
    (6)解决思路:
    1)减少对数据的扫描次数;
    2)缩小产生的候选项集;
    3)改进对候选项集的支持度计算方法

  11. 提高分类准确率的技术,不包括( C )
    A、装袋 B、提升 C、随机聚集 D、随机森林

12、对于分类模型的准确率的评估,不正确的是( )
A、对每个测试样本,将已知的类标号和该样本的学习模型类预测比较
B、准确率是被模型正确分类的测试样本的百分比
C、只有准确率大于 95%,才能使用该模型来分类标签为未知的样本
D、测试集:要独立于训练样本集,避免“过分拟合”的情况

13、关于聚类分析,描述错误的是( D )
A、是一个把数据对象划分成子集的过程
B、由聚类分析产生的簇的集合称作一个聚类
C、聚类被称为无监督学习,因为没有提供类标号信息
D、聚类不能作为其他算法(如分类等)的一个预处理步骤
注释:
(1)聚类分析(cluster analysis)简称聚类(clustering ),是一个把数据对象(或观测)集划分成子集的过程。每个子集是一个簇(cluster),使得簇中的对象彼此相似,但与其他簇中的对象不相似。
(2)相异性和相似性根据描述对象的属性值评估。
(3)由于簇是数据对象的集合,簇内的对象彼此相似,而与其他簇的对象不相似,因此数据对象的簇可以看做隐含的类。在这种意义下,聚类有时又称自动分类。
(4)在机器学习领域,分类称做监督学习,因为给定了类标号信息,即学习算法是监督的,因为它被告知每个训练元组的类隶属关系。
(5)聚类被称做无监督学习(unsupervised learning ),因为没有提供类标号信息。
(6)数据对象的簇可以看做隐含的类。与分类的区别是,聚类可以自动地发现这些分组,这是聚类分析的突出优点。
(7)聚类分析的数据挖掘功能:作为一个独立的工具来获得数据分布的情况; 作为其他算法(如:特征化、属性子集选择和分类)的预处理步骤; 聚类分析可以完成孤立点挖掘。
(8)数据挖掘对聚类分析的要求:可扩展性(Scalability); 处理不同数据类型的能力; 发现任意形状的能力;用于决定输入参数的领域知识最小化; 处理噪声数据的能力;对于输入数据的顺序不敏感; 高维性; 基于约束的聚类; 可解释性和可用性,
(9)聚类算法包括:
划分方法
层次的方法
基于密度的方法
基于网格的方法
基于模型的方法

14、聚类中基于密度的方法,描述错误的是( D )
A、可以发现任意形状的簇
B、簇是对象空间中被低密度区域分隔的稠密区域
C、簇密度是每个点的“邻域”内必须具有最少个数的点
D、不会过滤离群点
注释:
(1)基于距离的聚类方法的缺点:只能发现球状的簇,难以发现任意形状的簇。
(2)基于密度的聚类:只要临近区域的密度(对象或数据点的数目)超过某个临界值,就继续聚类;优点:可以过滤掉“噪声”和“离群点”,发现任意形状的簇。

15、离群点检测面临的挑战,不包括( D )
A、正常对象和离群点的有效建模
B、在离群点检测中处理缺失数据
C、针对应用的离群点检测
C、在离群点检测中处理噪声
注释:
(1)正常对象和离群点的有效建模;
(2)针对应用的离群点检测;
(3)在离群点检测中处理噪声;
(4)可理解性。

判断题

  1. 数据清理和预处理,一般占数据挖掘全部工作量的 10%以内。( F )
    注释:教材和PPT没有看到具体比重,但是无论是数据挖掘还是利用数据做其它事情,预处理的工作量都是巨大的,占很高的比重,比如这个回答也可以看出:
    在这里插入图片描述

  2. 二元属性(binary attribute)是一种标称属性,只有两个状态:0 或 1。( T )
    注释:参看选择题第二题。

  3. 规范化是将数据按比例缩放,使之落入一个小的特定区间,这个区间必须是[-1.0 , 1.0]。( F )
    注释:数据变换策略
    (1)光滑:去掉数据中的噪声。这类技术包括分箱、回归和聚类。
    (2)属性构造:可以由给定的属性构造新的属性并添加到属性集中,以帮助挖掘过程。
    (3)聚集:对数据进行汇总或聚集。例如,可以聚集日销售数据,计算月和年销售量。
    (4)规范化:把属性数据按比例缩放,使之落入一个特定的小区间,如-1.0 ~ 1.0 或 0.0 ~ 1.0。

  4. 标称、二元和序数属性都是定性的,即只描述对象的特征,不给出实际的大小。( T )
    注释:选择题第二题。

  5. 高质量的决策必然依赖于高质量的数据,但数据预处理并不属于知识发现过程的重要步骤。( F )
    注释:现实世界的数据一般是脏的、不完整的和不一致的,数据预处理技术可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。由于高价值的决策必然依赖于高质量的数据,因此数据预处理是知识发现过程的重要步骤

  6. WEKA 的全名是怀卡托智能分析环境,由美国的加州大学伯克利分校研制,WEKA 也是美国加州的一种鸟的名字。( F )
    注释:Weka的全名是怀卡托智能分析环境(Waikato Environment for Knowledge Analysis),是一款免费的,非商业化(与之对应的是SPSS公司商业数据挖掘产品–Clementine )的,基于JAVA环境下开源的机器学习(machine learning)以及数据挖掘(data mining)软件。它和它的源代码可在其官方网站下载。有趣的是,该软件的缩写WEKA也是新西兰独有的一种鸟名(新西兰秧鸡),而Weka的主要开发者同时恰好来自新西兰的怀卡托大学(The University of Waikato)。

  7. WEKA 中有 Preprocess、Classify、Cluster 等选项卡,要进行数据的分类是选择 Cluster 选项卡。( F )

  8. 在挖掘频繁模式时,项集的支持度也称为相对支持度,而出现的频率称作绝对支持度。( T )
    注释:
    (1)项集的频度是指包含项集的事务数,简称为项集的频度、支持度计数或计数。
    (2)项集的支持度有时称为相对支持度,而出现的频度称作绝对支持度。如果项集I的频度大于(最小支持度阈值×D中的事务总数),则称该项集I为频繁项集。频繁k项集的集合通常记作Lk。

  9. 使用 IF-THEN 规则分类,如果多个规则被触发,则需要一种解决冲突的策略来决定激活哪一个规则。( T )
    注释:如果多个规则被触发,则需要一种解决冲突的策略来决定激活哪一个规则,并对X指派它的类预测;

  10. 正常点的数量远远超过离群点的数量,离群点的数量在大规模数据集中所占的比例较低,小于 5%甚至 1%。( T )
    注释:离群点挖掘中需要处理的几个问题
    (1)全局观点和局部观点:离群点与众不同,但具有相对性。
    (2)点的离群程度:可以通过定义对象的偏离程度来给对象打分——离群因子(Outlier Factor)或离群值得分(Outlier Score),即都为离群点的情况下,也还有分高和分低的区别。
    (3)离群点的数量及时效性:正常点的数量远远超过离群点的数量,离群点的数量在大规模数据集中所占的比例较低,小于5%甚至1%。

填空题

  1. 四分位数极差 IQR=( Q3 )-Q1。

  2. ( 噪声 )是被检测的变量的随机误差或方差。

  3. 相似性和( 相异性 )都称为邻近性,后者的最小值一般是 0,而最大值(上限)是不同的。

  4. 回归是用一个( 函数 )拟合数据来光滑数据。

  5. 数据中的知识发现,通常由( 数据清理)、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示的步骤迭代组成,其中第一个步骤是消除噪声和删除不一致数据。

  6. 联机事务处理对应的英文缩写是( OLTP )。
    注释:联机事务处理OLTP;联机分析处理OLAP。
    DBMS是为OLTP而设计的:存储方式,索引, 并发控制, 恢复;
    数据仓库是为OLAP而设计:复杂的 OLAP查询, 多维视图,汇总。

  7. 用数据的最小-最大规范化,已知收入的最小值是 12000 美元,最大值是 98000 美元,则将收入映射到[0.0,1.0]之间,数据 73600 美元对应的映射结果是( 0.716 ),要求保留三位小数。
    v= (73600-12000)/(98000-12000)(1.0-0)+0 = 0.716

规范化:
在这里插入图片描述

  1. 部分物化的立方体被称为(冰山立方体 )。
    数据立方体可以被看成是一个方体的格,每个方体用一个group-by表示; 基本方体的单元是基本单元,非基本方体的单元是聚集单元。
    对于稀疏的数据立方体,我们往往通过指定一个最小支持度阈值(也称冰山条件),来进行部分物化,这种部分物化的方体称之为冰山方体

  2. 需要将 8 个点聚类为 3 个簇,所有点坐标为:A1(2,10), A2(2,5), A3(8,4), B1(5,8), B2(7,5), B3(6,4), C1(1,2), C2(4,9)。首先选择 A1,B1,C1 作为三个簇的中心,根据距离,点 A2 应该属于簇( C1 )。
    A1A2 = sqrt(02 + 52) = sqrt(25)
    B1A2 = sqrt(32 + 32) = sqrt(18)
    C1A2 = sqrt(12 + 32) = sqrt(10)

  3. 在本课程最后的项目中,典型的要求是对 Windows 下( NetStat –n )命令执行输出的结果进行分析。

简答题(前面4道为今年可能必考题,后面四道为往年考题)

  1. 数据对象和属性类型(书P27页):
    答:
    数据对象
    数据集由数据对象组成。一个数据对象代表一个实体(entity)。数据对象又称为样本、实例、数据点、或对象。数据对象用属性(attribute)描述。数据行对应数据对象; 列对应属性。
    属性
    属性(attribute)是一个数据字段,表示数据对象的一个特征。
    类型:
    标称属性(nominal):其值是一些符号或者事物的名称。
    二元属性(binary):是一种标称属性,只有两个状态:0或1。
    序数属性(ordinal:)其可能的值之间具有有意义的序或者秩评定(ranking),但是相继值之间的差是未知的。
    数值属性(numeric)
    区间标度属性(interval-scaled):使用相等的单位尺度度量。值有序,可以评估值之间的差,不能评估倍数。没有绝对的零点。
    比率标度属性(ratio-scaled):具有固定零点的数值属性。值有序,可以评估值之间的差,也可以说一个值是另一个的倍数。
    注意:标称、二元和序数属性都是定性的,即只描述对象的特征,不给出实际的大小。
    离散属性(discrete Attribute):具有有限或者无限可数个值。可以用或者不用整数表示。
    连续属性(Continuous Attribute):属性值为实数。一般用浮点变量表示。如果属性不是离散的,则它是连续的。

  2. 数据立方体的概念,冰山立方体(书P121页):
    (1)数据立方体的物化:
    数据立方体有利于多维数据的联机分析处理,数据立方体使得从不同的角度对数据进行观察成为可能。
    方体计算(物化)的挑战:海量数据,有限的内存和时间
    (2)数据立方体的概念:
    数据立方体可以被看成是一个方体的格,每个方体用一个group-by表示, 基本方体的单元是基本单元,非基本方体的单元是聚集单元
    (3)冰山立方体
    对于稀疏的数据立方体,我们往往通过指定一个最小支持度阈值(也称冰山条件),来进行部分物化,这种部分物化的方体称之为冰山立方体。(部分物化是存储空间和响应时间的折中方案)
    (4)闭立方体
    闭立方体:一个仅有闭单元组成的数据立方体
    (5)立方体外壳
    部分物化的另外一种策略:仅预计算涉及少数维的方体(比如3到5维),这些立方体形成对应数据立方体的外壳
    (6)完全立方体
    给定数据立方体的所有方体的所有单元。

数据立方体相关概念,这里写的比较全面可以看一下

  1. 简略介绍如下聚类方法:划分方法,层次方法,基于密度的方法和基于网格的方法。每种给出例子。
    答:
    划分方法:
    概念:给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇,并且k<=n。
    划分准则:同一个聚类中的对象尽可能的接近或相关,不同聚类中的对象尽可能的远离或不同。
    举例:K-均值和K-中心点算法。
    层次方法:
    概念:对给定数据对象集合进行层次分解;
    自底向上方法(凝聚):开始将每个对象作为单独的一个组,然后相继的合并相近的对象或组,直到所有的组合并为一个,或者达到一个终止条件。
    自顶向下方法(分裂):开始将所有的对象置于一个簇中,在迭代的每一步,一个簇被分裂为多个更小的簇,直到最终每个对象在一个单独的簇中,或达到一个终止条件
    举例:AGNES算法(自底向上方法)DIANA算法(自顶向下方法)
    基于密度的方法:
    概念:指导思想是,只要一个区域中的点的密度大于某个域值,就把它加到与之相近的聚类中去。这类算法能克服基于距离的算法只能发现“类圆形”的聚类的缺点,可发现任意形状的聚类,且对噪声数据不敏感。
    举例:DBSCAN、OPTICS、DENCLUE算法
    基于网格的方法
    概念:把对象空间量化为有限数目的单元,形成一个网格结构。所有的聚类都在这个网格结构上进行。
    举例:STING算法

  2. 离群点检测的挑战(书P354):
    答:
    (1)正常对象和离群点的有效建模
    (2)针对应用的离群点检测
    (3)在离群点检测中处理噪声
    (4)可理解性

4.1、关于数据预处理,请在下面两个问题中选择一个来回答(只选择一个)
(1)数据预处理的主要任务是?
(2)数据清理,对缺失值的处理方法是?
答:(1)数据清理:补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致
数据集成:集成多个数据库、数据立方或文件
数据变换:规范化、数据离散化、概念分层产生
数据归约:简化数据、但产生同样或相似的结果
(2)数据清理的任务:填充缺失的值,光滑噪声并识别离群点,纠正数据中的不一致。
忽略元组;人工填写空缺值;使用一个全局常量填充空缺失值 ;使用属性的中心度量(如均值或中位数)填充缺失值;使用与给定元组属同一类的所有样本的属性均值或中位数;使用最可能的值填充空缺值。

4.2、什么是监督学习?与无监督学习的区别是?什么是训练集与检验集
答:监督学习:根据已有的数据集,知道输入和输出结果之间的关系。根据这种已知的关系,训练得到一个最优的模型。(是对具有概念标记(分类)的训练样本进行学习,以尽可能对训练样本集外的数据进行标记(分类)预测。【神经网络和决策树】)
无监督学习:我们不知道数据集中数据、特征之间的关系,而是要根据聚类或一定的模型得到数据之间的关系。(无监督学习(unsupervised learning):是对没有概念标记(分类)的训练样本进行学习,以发现训练样本集中的结构性知识。【聚类】)
训练集:训练集用来估计模型中的参数,使模型能够反映现实,进而预测未来或其他未知的信息,
测试集:用来评估模型的预测性能。

4.3、请描述 K 均值(K-Means)算法的核心思想。
在数据集中根据一定策略选择K个点作为每个簇的初始中心,然后观察剩余的数据,将数据划分到距离这K个点最近的簇中,也就是说将数据划分成K个簇完成一次划分,但形成的新簇并不一定是最好的划分,因此生成的新簇中,重新计算每个簇的中心点,然后在重新进行划分,直到每次划分的结果保持不变。在实际应用中往往经过很多次迭代仍然达不到每次划分结果保持不变,甚至因为数据的关系,根本就达不到这个终止条件,实际应用中往往采用变通的方法设置一个最大迭代次数,当达到最大迭代次数时,终止计算。

4.4、什么是离群点,离群点有哪些类型。
答:离群点是在数据集中偏离大部分数据的数据,使人怀疑这些数据的偏离并非由随机因素产生,而是产生于完全不同的机制。
类型:全局离群点; 情境离群点; 集体离群点。

计算题(前面三道可能为今年必考题,后面三道为往年考题)

  1. Apriori算法求频繁项集(书P161):
    这里就直接列出这篇博文,简单易懂。
    利用Apriori算法寻找频繁项集

  2. 使用信息增益进行决策树归纳(书P219):
    也不用看书了,今天看知乎正好看到这篇博文,简直完美理解
    信息熵进行决策树归纳

  3. K均值算法:
    直接参考值这篇博文。
    K均值算法

下面这几道和1,2重复,第一道简单这里就不写了!

5.1、假定用于分析的数据包含属性“食堂就餐消费金额”mount,数据元组的 mount 值(以递增顺序)是:3、4、4、5、5、6、6、7、8、8、8、8、 9、10、11。请计算或给出:
(1)平均值,保留一位小数。
(2)中位数
(3)中列数
(4)众数
(5)根据众数,回答数据是单峰、双峰或三峰的。
以上每个小步骤分值为 1 分。

5.2、假定数据库有 5 个事务。设 min_sup =60%, min_conf=80%。使用 Apriori 算法找出所有频繁项集。
给出找出的过程,4 分;给出的最终结果,1 分。
在这里插入图片描述

5.3、下面表中的数据,基于男性的四个属性得到一个标签属性,计算 D的熵 Info(D),再计算身高的熵 Info 身高(D),最后得到身高的信息增益Gain(身高)。
在这里插入图片描述
表格最后一列是数据标签,有 6 个不嫁,7 个嫁。
(1) 对身高为矮的 5 个人,4 个不嫁,1 个嫁。
(2) 身高为中的 4 个人,1 个不嫁,3 个嫁。
(3) 身高为高的 4 个人,1 个不嫁,3 个嫁。
分数或对数(Log)的计算,在第一次转换为小数时,保留三位小数。已知:
Log2(6/13)= -1.115 Log2(7/13)= -0.893
Log2(1/5)= -2.322 Log2(4/5)= -0.322
Log2(1/4)=-2.000 Log2(3/4)= -0.415
说明:写出三个公式及对应的数据代入,每个 1 分,共 3 分;计算结果,中间的两个结果每个 0.5 分,最后一个结果 1 分,共 2 分。最终的结果,保留两位小数。

综述题(往年考题,今年未知)

以你对物联网信息系统的了解,回答下面两个问题:
(1) 在搭建物联网信息系统时,面临的挑战。(7.5 分)
(2) 物联网信息系统设计的一般原则。(7.5 分)
答:(1)
1, 安全:就物联网而言,存在各种信息安全层,从设备和网关到网络和云,大多数数据最终将驻留在云中;安全性通常会因端点或软件本身的漏洞而造成。无论数据处于静止状态还是传输过程,端到端加密始终至关重要;安全威胁几乎是无限的。物联网设备体积小,价格便宜,没有物理安全或物理安全性很小,而一些计算平台(通常受限于内存和计算能力)有时由于加密薄弱或CPU周期低而不支持复杂的安全算法。   还有设备存在被篡改或被盗的物理危险,以及设备软件未被更新,从而使其更容易受到网络攻击。
2,平台:物联网平台,无论是内部开发还是外部开发,都需具有足够的可扩展性和可靠性。企业希望控制他们的数据并保护其知识产权( IP ),同时确保平台能够处理大量数据并与现有遗留系统连接。
3,互操作性和标准化:网络可以通过各种通信协议进行连接。专家们表示,如果物联网想要生存和发展壮大,标准化至关重要。
4,数据存储与分析:物联网设备将产生大量数据,企业随后必须决定存储、分析和获取这些数据的洞察力。
5,物联网传感器:传感器网络是分布式传感器的集合,这些传感器监控物理或周边环境条件,例如温度、湿度、声音和压力等。每个传感器的数据都通过网络传输;网络架构师需要对其进行监控和维护,而从IT角度来看,也存在采购问题。传感器的数据管理、安全性、可靠性和可访问性都需要在初始招标过程中考虑。
(2)(这里摘取的是设计物联网系统的体系结构的原则,大多可以复用,比如5,6,但是1,2,3,4不太使用)
1,多样性原则。物联网体系结构须根据物联网的服务类型、节点的不同,分别设计多种类型的体系结构,不能也没有必要建立起统一的标准体系结构。
2, 时空性原则。物联网尚在发展之中,其体系结构应能满足物联网在时间、空间和能源方面的需求。
3, 互联性原则。物联网体系结构需要能与互联网实现互联互通;如果试图另行设计一套互联通信协议及其描述语言将是不现实的。
4, 扩展性原则。对于物联网体系结构的架构,应该具有一定的扩展性设计,以便最大限度地利用现有网络通信基础设施,保护已投资利益。
5, 安全性原则。物物互联之后,物联网的安全性将比计算机互联网的安全性更为重要,因此物联网的体系结构应能够防御大范围内的网络攻击。
6, 健壮性原则。物联网体系结构应具备相当好的健壮性和可靠性。

(所以这里我又差了信息系统设计原则,两个综合一下)
(1)系统性原则。信息系统设计要从整个系统的角度进行考虑,系统代码要统一,设计标准要规范,传递语言要一致,实现数据或信息全局共享,提高数据重用性。
(2)灵活性原则。为了维持较长的信息系统生命周期,要求系统具有很好的环境适应性。为此,信息系统应具有较好的开放性和结构的可变性。在信息系统设计中,应尽量采用模块化结构,提高数据、程序模块的独立性,这样,既便于模块的修改,又便于增加新的内容,提高信息系统适应环境变化的能力。
(3)可靠性原则。是指信息系统抗干扰的能力及受外界干扰时的恢复能力。一个成功的信息系统必须具有较高的可靠性,如安全保密性、检错及纠错能力、抗病毒能力等。
(4)经济性原则。是指在满足系统需求的前提下,尽量节约成本。一方面,在硬件投资上不能盲目追求技术上的先进,而应以满足应用需要为前提。另一方面,信息系统设计中应尽量避免不必要的复杂化,各模块应尽量简洁,以便缩短处理流程、减少处理费用。

评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

瓜洲大大

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值