- 博客(6)
- 收藏
- 关注
原创 【理论篇】数据挖掘 第五章 数据立方体技术
数据立方体技术是在数据仓库系统中广泛应用的一种技术,它通过多维数据模型对汇总数据进行存储和访问。数据立方体,作为一种高效的数据组织方式,允许用户在不同粒度和维度上灵活地进行数据分析。在OLAP(联机分析处理)环境中,数据立方体尤其重要,因为它们提供了强大的数据交互分析功能。个人理解,所谓的立方体最多只有三维,在开始学习数据立方体的时候不要去想三维以上的立方体如何表示。
2024-09-15 15:51:01 514
原创 【理论篇】数据挖掘 第四章 数据仓库与联机分析处理
数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程”。面向主题的(subject-oriented):数据仓库围绕一些重要主题,如顾客、供应商、产品和销售组织;集成的(integrated):通常,构造数据仓库是将多个异构数据源,如关系数据库、一般文件和联机事务处理记录集成在一起;时变的(time-variant):数据存储从历史的角度(例如,过去5~10年)提供信息。数据仓库中的关键结构都隐式或显式地包含时间元索;非易失的(nonvolatile)
2024-08-04 11:34:11 1733
原创 【算法篇】关联性分析 FP-Growth算法
FP-Growth(Frequent Pattern Growth,频繁模式增长)算法是一种高效的数据挖掘算法,主要用于解决频繁项集挖掘和关联规则发现的问题。与传统的Apriori算法相比,FP-Growth算法通过构建一种称为FP-Tree(频繁模式树)的数据结构,极大地减少了搜索空间,提高了挖掘效率。FP-Growth算法不仅适用于处理大规模数据集,还能有效应对数据稀疏性问题,因此在电子商务、社交网络分析、金融风控等多个领域有着广泛的应用。FP-Growth算法Apriori算法提出时间。
2024-08-04 10:47:47 1755
原创 【理论篇】数据挖掘 第三章 数据预处理
提升数据质量,确保数据满足应用要求。数据如果能满足其应用要求,那么它是高质量的。数据质量涉及许多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。
2024-07-14 17:36:12 1798
原创 【理论篇】数据挖掘 第二章 认识数据
带着问题看文章:1、数据由什么类型的属性或字段组成?2、每个属性具有何种类型的数据值?3、哪些属性是离散的,哪些是连续值的?4、什么方法可以可视化地观察数据,以便更好地理解它吗?5、可以度量某些数据对象与其他数据对象之间的相似性吗?
2024-07-14 15:27:33 453
原创 【理论篇】数据挖掘 第一章 引论
数据挖掘是从大量数据中挖掘有趣模式和知识的过程。模式又是什么?模式通常指的是数据中的一种规律、趋势或特征,可以是单一的特征、属性,也可以是多个特征之间的关系或组合。也可以简单的理解为规律或关联性。知识发现的过程有以下几个步骤:1、数据清理(消除噪声和删除不一致数据);2、数据集成(多种数据源可以组合在一起);3、数据选择(从数据库中提取与分析任务相关的数据);4、数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式);5、数据挖掘(基本步骤,使用智能方法提取数据模式);
2024-07-07 10:44:43 444
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人