自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 【理论篇】数据挖掘 第五章 数据立方体技术

数据立方体技术是在数据仓库系统中广泛应用的一种技术,它通过多维数据模型对汇总数据进行存储和访问。数据立方体,作为一种高效的数据组织方式,允许用户在不同粒度和维度上灵活地进行数据分析。在OLAP(联机分析处理)环境中,数据立方体尤其重要,因为它们提供了强大的数据交互分析功能。个人理解,所谓的立方体最多只有三维,在开始学习数据立方体的时候不要去想三维以上的立方体如何表示。

2024-09-15 15:51:01 514

原创 【理论篇】数据挖掘 第四章 数据仓库与联机分析处理

数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理者的决策过程”。面向主题的(subject-oriented):数据仓库围绕一些重要主题,如顾客、供应商、产品和销售组织;集成的(integrated):通常,构造数据仓库是将多个异构数据源,如关系数据库、一般文件和联机事务处理记录集成在一起;时变的(time-variant):数据存储从历史的角度(例如,过去5~10年)提供信息。数据仓库中的关键结构都隐式或显式地包含时间元索;非易失的(nonvolatile)

2024-08-04 11:34:11 1733

原创 【算法篇】关联性分析 FP-Growth算法

FP-Growth(Frequent Pattern Growth,频繁模式增长)算法是一种高效的数据挖掘算法,主要用于解决频繁项集挖掘和关联规则发现的问题。与传统的Apriori算法相比,FP-Growth算法通过构建一种称为FP-Tree(频繁模式树)的数据结构,极大地减少了搜索空间,提高了挖掘效率。FP-Growth算法不仅适用于处理大规模数据集,还能有效应对数据稀疏性问题,因此在电子商务、社交网络分析、金融风控等多个领域有着广泛的应用。FP-Growth算法Apriori算法提出时间。

2024-08-04 10:47:47 1755

原创 【理论篇】数据挖掘 第三章 数据预处理

提升数据质量,确保数据满足应用要求。数据如果能满足其应用要求,那么它是高质量的。数据质量涉及许多因素,包括准确性、完整性、一致性、时效性、可信性和可解释性。

2024-07-14 17:36:12 1798

原创 【理论篇】数据挖掘 第二章 认识数据

带着问题看文章:1、数据由什么类型的属性或字段组成?2、每个属性具有何种类型的数据值?3、哪些属性是离散的,哪些是连续值的?4、什么方法可以可视化地观察数据,以便更好地理解它吗?5、可以度量某些数据对象与其他数据对象之间的相似性吗?

2024-07-14 15:27:33 453

原创 【理论篇】数据挖掘 第一章 引论

数据挖掘是从大量数据中挖掘有趣模式和知识的过程。模式又是什么?模式通常指的是数据中的一种规律、趋势或特征,可以是单一的特征、属性,也可以是多个特征之间的关系或组合。也可以简单的理解为规律或关联性。知识发现的过程有以下几个步骤:1、数据清理(消除噪声和删除不一致数据);2、数据集成(多种数据源可以组合在一起);3、数据选择(从数据库中提取与分析任务相关的数据);4、数据变换(通过汇总或聚集操作,把数据变换和统一成适合挖掘的形式);5、数据挖掘(基本步骤,使用智能方法提取数据模式);

2024-07-07 10:44:43 444

数据挖掘:概念与技术 原书第03版

该书是数据挖掘领域的经典之作,数据挖掘学习不可忽略的书籍

2024-08-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除