既有适合小白学习的零基础资料,也有适合3年以上经验的小伙伴深入学习提升的进阶课程,涵盖了95%以上物联网嵌入式知识点,真正体系化!
由于文件比较多,这里只是将部分目录截图出来,全套包含大厂面经、学习笔记、源码讲义、实战项目、大纲路线、电子书籍、讲解视频,并且后续会持续更新
教材P241:从给定训练元组中有放回的均匀抽样,有多种自助方法, 最常用的一种是.618自助法,因为0.618代表黄金分割。(F)
教材P293:聚类方法有很多种,实际使用中只会选择其中的一种,聚类分析不会采用多种方法整合。(F)
教材P293:K均值算法适应性广,即使簇均值没有定义的情况,也可使用。(F)
简答题
1、(1)数据预处理的主要任务是?书上p56
答:
数据清理:补充缺失数据、平滑噪声数据、识别或删除离群点,解决不一致
数据集成:集成多个数据库、数据立方或文件
数据变换:规范化、数据离散化、概念分层产生
数据归约:简化数据、但产生同样或相似的结果
(2)数据清理,对缺失值的处理方法是?书上p58
答:
忽略元组
人工填写空缺值
使用一个全局常量填充空缺失值
使用属性的中心度量(如均值或中位数)填充缺失值
使用与给定元组属同一类的所有样本的属性均值或中位数
使用最可能的值填充空缺值
2、什么是监督学习?与无监督学习的区别是?什么是训练集与检验集?书上p213
答:
在机器学习领域,分类称做监督学习,因为给定了类标号信息,即学习算法是监督的,因为它被告知每个训练元组的类隶属关系。
聚类被称做无监督学习,因为没有提供类标号信息。
训练集由数据元组和与它们相关的类标号组成,检验集由检验元组和与它们相关联的类标号组成。
3、请描述 K 均值(K-Means)算法的核心思想。书上p293
答:
随机选择k个对象,每个对象代表一个簇的初始均值或中心
对剩余的每个对象,根据它与簇均值的距离,将他指派到最相似的簇
计算每个簇的新均值
回到步骤2,循环,直到准则函数收敛
4.4、什么是离群点,离群点有哪些类型。书上p352
答:
离群点是一个数据对象,它显著不同于其他的数据对象,好像它是被不同的机制产生的一样。
类型:
全局离群点:显著的偏离数据集中其余部分的点
情景离群点(条件离群点:关于特定情境下,它显著的偏离其他对象,情景离群点是局部离群点的推广
集体离群点:一个数据对象子集作为整体显著的偏离整个数据集,这个子集形成集体离群点。
老师今年画的重点(背住)
一、属性有哪些?特点?书上p27
属性是一个数据字段,表示数据对象的一个特征。
包括:
定性的:描述特征,不给出实际大小和数量:
- 标称属性
其值是一些符号或者事物的名称,每个值代表某种编码或状态。是分类的,不必具有有意义的序。 - 二元属性(binary attribute)
是一种标称属性,只有两个状态:0或1。
对称的(symmetric): 两种状态具有同等价值,携带相同权重。如:性别
非对称的(asymmetric): 其状态的结果不是同样重要。如:艾滋病毒的阳性和阴性结果。对重要的结果用1编码,另一个用0编码。 - 序数属性(ordinal attribute)
其可能的值之间具有有意义的序或者秩评定(ranking),但是相继值之间的差是未知的。
定量的:可度量的量
- 数值属性
数值属性是定量的,它是可度量的量
区间标度属性:使用相等的单位尺度度量。可以为正,0,负。
值有序,可以评估值之间的差,不能评估倍数。
没有绝对的零点。
比率标度(ratio-scaled)属性:具有固定零点的数值属性。
值有序,可以评估值之间的差,也可以说一个值是另一个的倍数。
其他类型
- 离散属性(discrete Attribute):具有有限或者无限可数个值,可以用或不用整数表示。
连续属性(Continuous Attribute):属性值为实数。如果属性不是离散就是连续的。
二、什么叫数据立方体?什么叫冰山立方体?书上p122
答:
- 数据立方体是一种多维数据模型,允许以多维对数据建模和观察。数据立方体由方体的格组成,每个方体代表一个group-by,对应给定多维数据的一个不同级别的汇总。
- 冰山立方体:对于稀疏的数据立方体,我们往往通过指定一个最小支持度阈值(也称冰山条件),来进行部分物化。
这种部分物化的方体称之为冰山方体,其只存放其聚集值大于某个最小支持度阈值的立方体单元。
三、简要介绍聚类方法,每种给出一个例子 书上p320
划分方法:
- 概念:给定一个n个对象或元组的数据库,一个划分方法构建数据的k个划分,每个划分表示一个簇,并且k<=n。它采用迭代重定位的方式,把对象从一个簇转移到另一个簇来改变划分质量。
划分准则:同一个聚类中的对象尽可能的接近或相关,不同聚类中的对象尽可能的远离或不同。 - 举例:K-均值和K-中心点算法。
- 特点:
发现的球形互斥的簇。
基于距离。
可以用均值或中心点等代表簇中心。
对中小规模数据集有效。
层次方法:
- 概念:对给定数据对象集合进行层次分解;
自底向上方法(凝聚):开始将每个对象作为单独的一个组,然后相继的合并相近的对象或组,直到所有的组合并为一个,或者达到一个终止条件。
自顶向下方法(分裂):开始将所有的对象置于一个簇中,在迭代的每一步,一个簇被分裂为多个更小的簇,直到最终每个对象在一个单独的簇中,或达到一个终止条件 - 举例:AGNES算法(自底向上方法)DIANA算法(自顶向下方法)
- 特点:
聚类是一个层次分解(多层)
不能纠正错误的合并
可以集成其他技术
基于密度的方法:
- 概念:根据邻域中对象的密度,或根据某种密度函数生成簇。指导思想是,只要一个区域中的点的密度大于某个域值,就把它加到与之相近的聚类中去。这类算法能克服基于距离的算法只能发现“类圆形”的聚类的缺点,可发现任意形状的聚类,且对噪声数据不敏感。
- 举例:DBSCAN、OPTICS、DENCLUE算法
- 特点
可以发现任意形状的簇
簇是对象空间中被低密度区域分割开的稠密区域。
簇密度:每个点的领域内必须有最少个数个点。
可能过滤离群点
基于网格的方法
- 概念:把对象空间量化为有限数目的单元,形成一个网格结构。所有的聚类都在这个网格结构上进行。
- 举例:STING算法
- 特点:
使用一种多分辨率网格数据结构
快速处理
四、离群点检测的挑战 书上p354
答:
- 正常对象和离群点的有效建模
- 针对应用的离群点检测
不同的应用有不同的要求,不可能开发通用的离群点检测的方法。 - 在离群点检测中处理噪声
- 可理解性
被检测的点为什么是噪点
大题
K均值
书上p320
Apriori算法
min_sup :最小支持度,min_conf:最小置信度
书上p161 例题
信息增益进行决策树归纳
书上p218
综述题
物联网相关
以你对物联网信息系统的了解,回答下面两个问题:
(1) 在搭建物联网信息系统时,面临的挑战。(7.5 分)
答:
一、安全
二、平台
收集整理了一份《2024年最新物联网嵌入式全套学习资料》,初衷也很简单,就是希望能够帮助到想自学提升的朋友。
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人
都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!
链图片转存中…(img-F50xQXTy-1715637179753)]
[外链图片转存中…(img-G1HJADwd-1715637179754)]
一个人可以走的很快,但一群人才能走的更远!不论你是正从事IT行业的老鸟或是对IT行业感兴趣的新人
都欢迎加入我们的的圈子(技术交流、学习资源、职场吐槽、大厂内推、面试辅导),让我们一起学习成长!