大数据的期末复习指南
文章平均质量分 68
十八岁讨厌Java
我要变强
展开
-
关联规则算法——FP-Growth算法
项集:数据库中的数据项构成的非空集合事务:一个事务包含了一个或多个项集支持度:包含项集x的事务数量与全部事务数量的百分比置信度:同时包含数据项x和数据项y的事务数量与事务x(或事务y)出现的次数之比最小支持度与最小置信度:关联规则必须满足的最低要求,由用户设定频繁项集:大于等于最小支持度的项集称为频繁项集最大频繁项集:不被其它频繁项集包含的频繁项集称为最大频繁项集强关联规则:大于等于最小支持度和最小置信度称为强关联规则(频繁项集的基础上大于等于最小置信度)FP-Growth不会产生候选项集,它采用分而治之的原创 2022-06-16 18:25:59 · 2165 阅读 · 0 评论 -
关联规则算法——Apriori算法
项集:数据库中的数据项构成的非空集合事务:一个事务包含了一个或多个项集支持度:包含项集x的事务数量与全部事务数量的百分比置信度:同时包含数据项x和数据项y的事务数量与事务x(或事务y)出现的次数之比最小支持度与最小置信度:关联规则必须满足的最低要求,由用户设定频繁项集:大于等于最小支持度的项集称为频繁项集最大频繁项集:不被其它频繁项集包含的频繁项集称为最大频繁项集强关联规则:大于等于最小支持度和最小置信度称为强关联规则(频繁项集的基础上大于等于最小置信度)Apriori是基于广度优先的关联规则算法,即从频繁原创 2022-06-16 17:20:19 · 9595 阅读 · 3 评论 -
聚类算法——基于密度的聚类算法DBSCAN
邻域(Eps):以给定对象为圆心,半径内的区域为该对象的邻域核心对象:对象的邻域内至少有MinPts(设定的阈值)个对象,则该对象为核心对象边界对象:对象的领域小于MinPts个对象,但是在某个核心对象的邻近域中离群点(噪声):对象的领域小于MinPts个对象,且不在某个核心对象的邻域中直接密度可达:如果a是核心对象,b在a的邻域内,则a到b是直接密度可达密度可达:a到b是直接密度可达,b到c是直接密度可达,则a到c是密度可达密度相连:a到b是密度可达,a到c也是密度可达,则b到c是密度相连的1.输入两个参原创 2022-06-16 11:09:45 · 5274 阅读 · 0 评论 -
大数据技术期末复习重点,不挂科看这里~
本篇文章是根据老师画的重点,作为期末大数据复习资料,持续更新中~一、大数据概念1.什么是大数据,大数据的意义是什么?大数据的特征是什么?2.大数据的技术支撑是什么?3.大数据的处理方法有哪些?二、数据采集与预处理1.Kafka数据采集2.数据预处理原理3.数据预处理方法4.数据清洗有哪些方法?5.数据集成要考虑的问题有哪些?6.数据变换主要涉及哪些内容?大数据是由云计算技术支撑,对海量数据进行推测预演的技术。大数据局意义是通过关联找到规则,有数据可说,说数据可靠。大数据有四大特征:大数据的技术支支撑是云计算原创 2022-06-10 17:45:40 · 5295 阅读 · 3 评论