大数据开发基础
文章平均质量分 85
大数据开发基础课程笔记
-断言-
莫等闲,白了少年头,空悲切!
展开
-
【大数据开发基础】第九章聚类分析
文章目录1 什么是聚类分析?2 距离和相似系数2.1 Q型聚类(对样本聚类)3 类的定义和类间距离4 基于划分的聚类方法5 基于层次的聚类方法6 基于密度的聚类方法聚类和分类的区别:聚类:无监督的,一种自然分组的方法分类:有监督的,提前定义好标签1 什么是聚类分析?聚类分析中“类”的特征:聚类所说的类不是事先给定的,而是根据数据的相似性和距离来划分;聚类的数目和结构都没有事先假定聚类分析的目的是寻找数据中:潜在的自然分组结构 (structure of natural groupin原创 2021-05-25 11:28:36 · 4901 阅读 · 2 评论 -
【大数据开发基础】第八章分类数据挖掘
文章目录1 分类挖掘的基本流程2 基于距离的分类算法3 决策树分类方法4 贝叶斯分类方法1 分类挖掘的基本流程2 基于距离的分类算法3 决策树分类方法4 贝叶斯分类方法原创 2021-05-24 21:39:15 · 364 阅读 · 0 评论 -
【大数据开发基础】第七章关联规则挖掘
文章目录1 关联规则挖掘的基本概念1.1 关联规则的基本概念1.2 关联规则分类2 由事务数据库挖掘单维布尔关联规则3 由事务数据库挖掘多层关联规则4 由关系数据库和数据仓库挖掘多维关联规则1 关联规则挖掘的基本概念1.1 关联规则的基本概念关联规则挖掘的主要对象是交易型数据库。支持度support:支持度是模式在事务型数据库中出现的频率。对于形如“A=>B”的关联规则,支持度定义为:支持度(A=>B)=包含A和B的元组数元组总数支持度(A=>B)=\frac{包含A和B的元组数原创 2021-05-23 21:28:45 · 1005 阅读 · 0 评论 -
【大数据开发基础】第六章概念描述
文章目录1 数据概化与基于汇总的特征化2 属性相关分析3 挖掘类比较:区分不同的类4 常见的统计度量指标数据挖掘的功能:1)概念描述:特征化和比较;2)关联规则;3)分类/预测;4)聚类分析;5)其他的数据挖掘任务从数据分析的角度,DM可以分为两类:描述式挖掘和预测式挖掘。概念描述用以产生数据的特征化和比较描述特征化:提供给定数据集的简洁汇总;比较(区分):提供两个或多个数据集的比较描述1 数据概化与基于汇总的特征化2 属性相关分析3 挖掘类比较:区分不同的类4原创 2021-05-23 20:23:48 · 621 阅读 · 0 评论 -
【大数据开发基础】第五章数据预处理
文章目录1 数据清洗1.1 空缺值的处理?1.2 噪声数据的处理?1.3 不一致数据的处理?2 数据集成与变换3 数据归约(消减)4 数据离散化脏数据的几种表现(1)杂乱性:如命名规则不同。例:对男女的命名,有些数据库命名为“男”、“女”;有些为“0”、“1”;有些为“Female”、“Male”(2)重复性:同一客观事物在数据库中存在两个以上相同的物理描述(3)不完整性:由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素,数据记录可能会出现数据值的丢失或不确定(4)噪声数据:数据原创 2021-04-23 15:45:31 · 1955 阅读 · 0 评论 -
【大数据开发基础】第四章数据挖掘的基本概念
文章目录1. 什么是数据挖掘2. 数据挖掘可以挖掘的模式类型2.1 关联分析(描述)2.2 聚类分析(描述)2.3 分类(预测)2.4 孤立点(离群点)分析(预测)1. 什么是数据挖掘数据挖掘DM:从数据中发现知识数据挖掘定义:数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则这个定义包括以下几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的问题原创 2021-04-18 20:34:57 · 417 阅读 · 0 评论 -
【大数据开发基础】第三章OLAP
文章目录1. 什么是OLAP?2. OLAP的分析方法2.1 切片Slice2.2 切块Dice2.3 旋转Rotate2.4 钻取Drill3. OLAP的数据组织3.1 ROLAP(Relational OLAP )3.2 MOLAP(Multidimensional OLAP)3.3 HOLAP(Hybrid OLAP)简单介绍OLAP和OLTP什么是OLTP?OLTP:联机事务处理什么是OLAP?联机分析处理。OLAP是一门对数据仓库中的数据进行分析的技术,方便实现决策支持的目标1.原创 2021-04-18 19:55:10 · 546 阅读 · 0 评论 -
【大数据开发基础】第二章数据仓库
文章目录1. 什么是数据仓库1.1 数据仓库定义1.2 数据仓库的作用1.3 数据仓库的关键特征1.4 为什么要建立数据仓库2. 数据立方体3. 数据仓库的三级模型4. 数据仓库的设计1. 什么是数据仓库1.1 数据仓库定义数据仓库是为构建分析型数据处理环境而出现的一种数据存储和组织技术。同时为上层应用提供统一用户接口。数据仓库是一个面向主题的、集成的、随时间而变化的、不容易丢失的数据集合,支持管理部门的决策过程。1.2 数据仓库的作用存储经过加工处理的决策需要的数据存储数据的一种形式加工原创 2021-04-18 19:02:56 · 309 阅读 · 0 评论 -
【大数据开发基础】第一章大数据的基本概念
文章目录1. 什么是大数据?2. 大数据的3V和5V特征2.1 3V特征2.2 大数据的5V特征3. 广义大数据4. 大数据的结构类型5. 大数据的使用步骤1. 什么是大数据?狭义定义:用现有一般技术难以管理的大量数据的集合。用现有一般技术难以管理有两方面:用目前主流的关系型数据库无法进行管理的、具有复杂结构的数据数据量过于庞大,查询时间超出允许的最大限度2. 大数据的3V和5V特征2.1 3V特征IBM总结说:数量(Volume,或称容量)、种类(Variety,或称多样性)和速度(V原创 2021-04-03 12:34:18 · 1839 阅读 · 0 评论