SDU数据仓库与数据挖掘 重要算法提纲

本文详细介绍了数据仓库与数据挖掘的重要算法,包括数据分析、数据预处理、数据仓库、OLAP、数据立方体计算、关联挖掘等。其中,数据预处理涉及数据清理、集成和归约,数据立方体是数据仓库的关键,而关联挖掘如Apriori和FP-Growth算法是数据挖掘的重要组成部分。此外,文章还讨论了分类、聚类以及推荐算法,如K-means、决策树、贝叶斯和协同过滤。
摘要由CSDN通过智能技术生成

课程难度很大,想要全掌握很难,但是掌握一部分基础算法还是可以的,考试多半也是这个范围。按章节给出。

一,数据分析,大数据技术

概念性章节,没有什么具体算法,主要是讲大数据的发展和应用。(不太重要)

大数据:巨量资料,规模庞大,数据量从TB级别到PB,EB甚至ZB级别。

大数据技术的战略意义不在于掌握庞大的数据,而是要对如此规模的数据进行专业化管理,提高加工能力,实现数据增值。

大数据名称来源:1980年《第三次浪潮》。最早应用:麦肯锡公司。定义:大数据是指大小超出了常规数据库工具获取,存储,管理和分析能力的数据集。

4V特点(考过):Volume(大规模性),Velocity(高速性),Variety(多样性),Value(价值性)。

大数据的构成:海量数据和针对海量数据的处理解决方案。

大数据技术(说的很多,实际上应该都是概念):hadoop框架(实验平台),Mapreduce(分布式并行处理的框架,映射+化简),HDFS体系结构——两类节点,目录节点(负责文件名维护管理,也是客户端访问文件的入口。),数据节点(集群里的机器,负责数据存储和读取。)

Spark:针对Mapreduce的不足,提出的更快的模型,能够处理更复杂的多重处理请求,提供低延迟的交互式查询需求。启用内存分布数据集,还可以优化迭代工作负载。比Hadoop快100倍。

No-sql:非关系型数据库。Redis(键值存储),MangoDB(分布式文件存储),图数据库(在非关系数据库中体现角色关系)

神经网络算法:图像挖掘用CNN,文本挖掘用RNN(概念)

物联网与大数据(看看就行)

二,数据的临近性

相似性:两个对象相似程度的表示,通常取值【0,1】

相异性:不相似程度表示,数值越低越相似,越大越不相似。最小值通常为0,最大值上限不同。

相异性矩阵:体现两两点之间的相异性。是单模对称矩阵(存三角形)

相等区间:定义序数属性之间临近度的标准方法。

一系列距离:曼哈顿距离(横平竖直),欧氏距离(几何距离),切比雪夫距离(也叫棋盘距离,两个点的距离定义为各坐标数值差的最大值),标准化欧氏距离(加入均值作为标准化变量,公式X*=X-m/s,m是均值,s是标准差。),马氏距离(点与分布间的距离)

Jaccard相似系数:主要用于计算符号度量和布尔值度量个体间的相似度(没法衡量具体差异值的大小,只能得到是否相同这个结果)

余弦相似度:向量夹角越小,向量越相似,余弦值的绝对值越大。若值为负则向量负相关。

 相关关系:两个或两个以上变量取值之间在某种意义下存在的规律——正相关,负相关,零相关(毫无关系),高相关,低相关,中等程度相关。

相关性的各种系数:完全看不懂,希望不考。

三,数据预处理

为什么预处理?现实中的数据大很多是脏的,例如包括错误点和孤立点,编码存在差异(不一致),重复,不完全,缺少属性等。

不完全数据:收集时未包含;硬件软件损坏等

噪音数据:收集,录入,变换

不一致数据:不同的数据源,违反函数依赖

数据质量因素:采集角度——准确性,完整性,一致性,应用角度——相关性,时效性,用户角度——可信性,可解释性。

数据清理

填充缺失值;处理离群点;光滑噪音;纠正不一致;解决冗余

如何处理空缺值:忽略元组;手动填充;用全局常量填充;使用均值;使用目标同一类所有样本的均值;填写最有可能的值——基于贝叶斯公式或决策树。

最后可能的值:热卡填补法——找到和缺失对象最相似的对象,用来填充缺失的对象。

噪音数据:相对于真实值的偏差或者错误,如孤立点。

噪声判别方法:3seita判别法,基于正态分布,如果超出三倍平均数则认为是异常值;基于密度:密度显著低于大部分临近则分类为离群点,适合非均匀分布。

除去噪声:回归,构造函数符合变化趋势,从而用一个变量预测另一个变量。如线性回归拟合;聚类,通过聚类发现异常数据,忽略孤立点,或者人工审查这些点;分箱:把数据按照规则放进房子,考察每个箱子的数据——等宽划分,等频划分。平滑方法:按平均值平滑,按中值平滑,按边界平滑。

处理不一致数据:人工更正,数据字典——根据给定字典消除不一致。

数据集成

将互相关联的分布式异构数据集成到一起,使用户以透明方式访问。也就是把不同数据源的东西合成用户需要的类型查询。

数据集成方法:联邦数据库FDDS(虚拟连接,通过接口查询互相通讯),数据复制(实际存储方式,将各个源的数据复制到一处,成为数据仓库!)

实体识别问题:多个数据源同一实体的识别,例如重名或者同义但是表示方法不同。(ID和No)

 数据冗余:属性重复(同一属性出现多次),属性相关冗余(如一个属性可以由另一个导出),元组重复(两个完全一样的元组),有些荣誉可以用相关分析检测到。

消除冗余:基本思路是排序和合并(很朴素,排个序那么相同的就在一起了)

冲突值检测:单位不同,比例,编码,表示不同。检测到之后可能去要修改某个数据库的属性值。

数据归约

从数据集中获取一个精简的集合,保持原有完整性,而且挖掘结果基本相同。

维规约(降维):减少属性个数。算法:主成分分析,小波变换。

数值规约:用替代的,更小的数据表示替换原数据。参数或非参数。

数据立方体聚集(后期重点)

数据压缩;

离散化与概念分层生成。

维规约:删除不相关属性(如电话号码),找出最小属性集。

启发式方法:逐步向前选择:从空属性集开始,每次选一个最优的,直到无法选出或者达到阈值。

向后删除:从全集开始,每次删一个最差的属性,直到无法删除或者满足阈值。

判定树归纳:利用决策树进行归纳学习,选择树节点上的属性。

基于统计的规约:统计显著性检验等。

属性,特征产生:产生新的属性,而可以比原始属性更好表示重要信息。

主成分分析(PCA)

利用降维思想,把多个指标转化为m个指标,实现降维。通过旋转坐标轴,使得数据在一个新的坐标系里,在一个轴上离散化程度更高,从而删去另一个维度。未必是三维降到二维。主轴总长度占到所有总长度85%以上。

主成分分析就是要确定原变量在主成分上的相关系数。每个主成分分别是一切线性组合中方差最大的,从大到小排序。

解关于相关系数矩阵的特征方程,求出特征值,从大到小排序,然后求出特征向量,要求特征向量模为1,此时特征值就可以用来表示主成分对整体的贡献率。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值