SDU数据仓库与数据挖掘重要算法提纲

feilongzzz

已于 2022-06-01 13:19:35 修改

阅读量1k

点赞数 1

文章标签：数据仓库 big data 大数据

于 2022-06-01 04:16:03 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/feilongzzz/article/details/125073987

版权

本文详细介绍了数据仓库与数据挖掘的重要算法，包括数据分析、数据预处理、数据仓库、OLAP、数据立方体计算、关联挖掘等。其中，数据预处理涉及数据清理、集成和归约，数据立方体是数据仓库的关键，而关联挖掘如Apriori和FP-Growth算法是数据挖掘的重要组成部分。此外，文章还讨论了分类、聚类以及推荐算法，如K-means、决策树、贝叶斯和协同过滤。

摘要由CSDN通过智能技术生成

课程难度很大，想要全掌握很难，但是掌握一部分基础算法还是可以的，考试多半也是这个范围。按章节给出。

一，数据分析，大数据技术

概念性章节，没有什么具体算法，主要是讲大数据的发展和应用。（不太重要）

大数据：巨量资料，规模庞大，数据量从TB级别到PB，EB甚至ZB级别。

大数据技术的战略意义不在于掌握庞大的数据，而是要对如此规模的数据进行专业化管理，提高加工能力，实现数据增值。

大数据名称来源：1980年《第三次浪潮》。最早应用：麦肯锡公司。定义：大数据是指大小超出了常规数据库工具获取，存储，管理和分析能力的数据集。

4V特点（考过）：Volume（大规模性），Velocity（高速性），Variety（多样性），Value（价值性）。

大数据的构成：海量数据和针对海量数据的处理解决方案。

大数据技术（说的很多，实际上应该都是概念）：hadoop框架（实验平台），Mapreduce（分布式并行处理的框架，映射+化简），HDFS体系结构——两类节点，目录节点（负责文件名维护管理，也是客户端访问文件的入口。），数据节点（集群里的机器，负责数据存储和读取。）

Spark：针对Mapreduce的不足，提出的更快的模型，能够处理更复杂的多重处理请求，提供低延迟的交互式查询需求。启用内存分布数据集，还可以优化迭代工作负载。比Hadoop快100倍。

No-sql：非关系型数据库。Redis（键值存储），MangoDB（分布式文件存储），图数据库（在非关系数据库中体现角色关系）

神经网络算法：图像挖掘用CNN，文本挖掘用RNN（概念）

物联网与大数据（看看就行）

二，数据的临近性

相似性：两个对象相似程度的表示，通常取值【0，1】

相异性：不相似程度表示，数值越低越相似，越大越不相似。最小值通常为0，最大值上限不同。

相异性矩阵：体现两两点之间的相异性。是单模对称矩阵（存三角形）

相等区间：定义序数属性之间临近度的标准方法。

一系列距离：曼哈顿距离（横平竖直），欧氏距离（几何距离），切比雪夫距离（也叫棋盘距离，两个点的距离定义为各坐标数值差的最大值），标准化欧氏距离（加入均值作为标准化变量，公式X*=X-m/s，m是均值，s是标准差。），马氏距离（点与分布间的距离）

Jaccard相似系数：主要用于计算符号度量和布尔值度量个体间的相似度（没法衡量具体差异值的大小，只能得到是否相同这个结果）

余弦相似度：向量夹角越小，向量越相似，余弦值的绝对值越大。若值为负则向量负相关。

相关关系：两个或两个以上变量取值之间在某种意义下存在的规律——正相关，负相关，零相关（毫无关系），高相关，低相关，中等程度相关。

相关性的各种系数：完全看不懂，希望不考。

三，数据预处理

为什么预处理？现实中的数据大很多是脏的，例如包括错误点和孤立点，编码存在差异（不一致），重复，不完全，缺少属性等。

不完全数据：收集时未包含；硬件软件损坏等

噪音数据：收集，录入，变换

不一致数据：不同的数据源，违反函数依赖

数据质量因素：采集角度——准确性，完整性，一致性，应用角度——相关性，时效性，用户角度——可信性，可解释性。

数据清理

填充缺失值；处理离群点；光滑噪音；纠正不一致；解决冗余

如何处理空缺值：忽略元组；手动填充；用全局常量填充；使用均值；使用目标同一类所有样本的均值；填写最有可能的值——基于贝叶斯公式或决策树。

最后可能的值：热卡填补法——找到和缺失对象最相似的对象，用来填充缺失的对象。

噪音数据：相对于真实值的偏差或者错误，如孤立点。

噪声判别方法：3seita判别法，基于正态分布，如果超出三倍平均数则认为是异常值；基于密度：密度显著低于大部分临近则分类为离群点，适合非均匀分布。

除去噪声：回归，构造函数符合变化趋势，从而用一个变量预测另一个变量。如线性回归拟合；聚类，通过聚类发现异常数据，忽略孤立点，或者人工审查这些点；分箱：把数据按照规则放进房子，考察每个箱子的数据——等宽划分，等频划分。平滑方法：按平均值平滑，按中值平滑，按边界平滑。

处理不一致数据：人工更正，数据字典——根据给定字典消除不一致。

数据集成

将互相关联的分布式异构数据集成到一起，使用户以透明方式访问。也就是把不同数据源的东西合成用户需要的类型查询。

数据集成方法：联邦数据库FDDS（虚拟连接，通过接口查询互相通讯），数据复制（实际存储方式，将各个源的数据复制到一处，成为数据仓库！）

实体识别问题：多个数据源同一实体的识别，例如重名或者同义但是表示方法不同。（ID和No）

数据冗余：属性重复（同一属性出现多次），属性相关冗余（如一个属性可以由另一个导出），元组重复（两个完全一样的元组），有些荣誉可以用相关分析检测到。

消除冗余：基本思路是排序和合并（很朴素，排个序那么相同的就在一起了）

冲突值检测：单位不同，比例，编码，表示不同。检测到之后可能去要修改某个数据库的属性值。

数据归约

从数据集中获取一个精简的集合，保持原有完整性，而且挖掘结果基本相同。

维规约（降维）：减少属性个数。算法：主成分分析，小波变换。

数值规约：用替代的，更小的数据表示替换原数据。参数或非参数。

数据立方体聚集（后期重点）

数据压缩；

离散化与概念分层生成。

维规约：删除不相关属性（如电话号码），找出最小属性集。

启发式方法：逐步向前选择：从空属性集开始，每次选一个最优的，直到无法选出或者达到阈值。

向后删除：从全集开始，每次删一个最差的属性，直到无法删除或者满足阈值。

判定树归纳：利用决策树进行归纳学习，选择树节点上的属性。

基于统计的规约：统计显著性检验等。

属性，特征产生：产生新的属性，而可以比原始属性更好表示重要信息。

主成分分析（PCA）

利用降维思想，把多个指标转化为m个指标，实现降维。通过旋转坐标轴，使得数据在一个新的坐标系里，在一个轴上离散化程度更高，从而删去另一个维度。未必是三维降到二维。主轴总长度占到所有总长度85%以上。

主成分分析就是要确定原变量在主成分上的相关系数。每个主成分分别是一切线性组合中方差最大的，从大到小排序。

解关于相关系数矩阵的特征方程，求出特征值，从大到小排序，然后求出特征向量，要求特征向量模为1，此时特征值就可以用来表示主成分对整体的贡献率。

最低0.47元/天解锁文章

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。