【数据挖掘】课本整理

第二章 数据预处理

                   a.数据清理脏数据

                            填充缺失值  使用缺省值、平均值、最可能的值【贝叶斯 决策树等】

                            光滑噪声 封箱【箱均值 箱边界】 回归 聚类

                            识别离群点

                            【原则】唯一性原则 连续性原则 空值原则

                   b.数据集成

                            合并多个数据源的数据 解决一致性 模式集成 对象匹配 实体识别问题

                            冗余:通过相关分析 检测到。根据数据度量的一个属性能在多大程度上蕴含另一个  --皮尔逊积矩系数【PearsonProduct coefficient】

                            大于零 则正相关 等于零 独立 小于零 负相关

                            对于离散数据 也可以通过卡方检验发现

                            属性上检测冗余 同时元组tuple上也要查重

                            数据值冲突的检测和处理 重量单位等等

                   c。数据变换

                            光滑【封箱 回归 聚类】

                            聚集 数据变成数据立方体

                            数据泛化:年龄--》青年中年老年

                            规范化:按比例缩放  最小-最大 规范化  z-score规范化【减平均值除以方差】  按小数定标规范化【小数点左移最大的绝对值的位数】

                            属性构造:构造新的属性并添加进去

                           

                   d。数据归约

                            数据立方体聚集

                            属性子集选择 去掉不相关和冗余属性

                            维度归约         小波变换DWT【有损压缩,比DFT需要的空间小,局部性好,有利于保留局部细节 高维数据】 主成分分析【PCA KL方法 稀疏数据】

                            数值归约

                                     【回归和对数线性模型】

                                     【直方图---等宽 等频【等深】 V最优【最小方差】MaxDiff【两个直方图之间相邻距离最大】】

                                     【聚类】

                                     【抽样】无放回 有放回 聚类抽样 分层抽样

                                    

                            离散化和概念分层产生

                                     分箱 容易受离散点影响

                                     直方图分析 非监督 桶

                                     基于熵的离散化:期望信息需求。

                                     基于卡方的区间合并

                                     聚类分析

                                     根据直观划分离散化3-4-5规则

                                    

                                     概念集 属性分层 偏序关系

                  

         描述性数据汇总:中心趋势度量:均值 中位数 众数 中列数【数据最大值最小值的平均值】

                                               数据离中趋势度量:四分位数(Quatile)四分位数极差(IQR)方差(variance)

                                               图形表示:直方图、盒图、分位数图、分位数-分位数图、散布图和散布图矩阵                         

         -----------------------------------------------------------------------------------------------------------------------------------------------------------------------------

   第三章 数据仓库和OLAP技术概述

         数据立方体 上卷 下钻 切片和切块

         数据仓库

                   面向主题的

                   集成的

                   时变的

                   非易失的

         数据仓库的构造:数据集成 数据清理 数据统一

         OLTP和OLAP的主要区别

                   1.用户和系统的面向性。OLTP面向顾客,OLAP面向市场

                   2.数据内容 OLTP管理当前数据,琐碎难以用于决策

                                               OLAP管理历史数据,通过汇总和聚集机制,不同力度级别的信息,可以用于决策

                   3.数据库设计 OLTP ER数据模型和面向应用的数据库设计。OLAP星形和雪花形

                   4.视图:OLTP企业或部门内部的当前数据,不涉及历史数据或不同组织的。OLAP跨越数据库模式的多个版本,来自不同组织的数据,存在多个存储介质上

                   5.访问模式: OLTP原则是原子事务构成,需要并发控制和恢复机制

                   6.其他:数据库大小、操作的频繁程度、性能度量

                  

         为什么要分开OLTP和OLAP?为了提高两个系统各自的性能;OLTP并发控制,加锁,OLAP只读访问;两种系统中数据的结构、内容和用法都不尽相同。

        

         多维数据模型:

                   星形 一个事实表,一堆维表,每维只用一个表表示

                   雪花形 星形的变种,某些维度有标准格式,可能会进一步划分

                   事实星座形: factconstellation

                  

                   数据仓库 datawarehouse  整个组织 企业范围的 事实星座形 可以对多个相关主题建模

                   数据集市 datamart上述的部门子集 ,通常用星形或雪花形

                  

         DMQL语言

                   聚集函数类型有三种:分布的【count 分开算也可以 min max 】代数的【由分布函数做运算获得】整体的【中位数 众数 排序】

                   概念分层:     上卷:roll-up

                                               下钻:drill-down

                                               切片/切块:slice/dice

                                               转轴:rotate/pivot

                                              

                                              

         三层数据仓库的系统结构:

                   底层 仓库数据服务器 关系数据库系统

                   中间 OLAP服务器

                   顶层 前端客户端

                  

                   三种数据仓库模型:企业仓库、数据集市、模拟仓库【操作数据库视图的集合】

                  

         元数据存储库:元数据:关于数据的数据 应当持久存放和管理

         OLAP服务器的类型: ROLAP 关系型DBMS优化 可伸缩性强 数据存在关系表中 汇总事实表

                                                        MOLAP多维 基于数组的多维存储引擎 能快速索引,但如果是稀疏数据则存储的存储利用率比较低  存在多维数组结构中

                                                        HOLAP混合结合R的较大的可伸缩性和M的快速计算

                                                        特殊的SQL服务器:

                                                       

         数据仓库的实现:大多数OLAP产品借助于多维聚集的预计算。然而,预计算的主要挑战是,如果数据立方体中所有的方体都预先计算,所需的存储空间可能爆炸,特别是当立方体包含很多维时,当许多维都具有相关联的概念分层,每个具有多层时,存储需求甚至更多,这个问题称作维灾难。

                   所以选择部分物化:有选择的计算整个方体中的部分子集。

                            冰山立方体:只计算聚集值大于某个最小支持度阈值的立方体单元

                            shellcube外壳立方体,预计算只有少量维度的立方体【3-5】

                           

                           

         OLAP数据的索引:

                   位图索引【bitmapindexing】:

                   连接索引:登记来自关系数据库的两个关系的可连接行,能够识别可连接的元组。星形模式:对于交叉搜索非常赞

                   组合:位图连接索引

                  

                   如何选择不同粒度的物化方体:

                            1.细粒度数据不能由粗粒度数据产生,先去掉不能满足要求粒度的方体

                            2.最好选择最接近粒度的,不要选择太细粒度的,增加运算量

                            3.还要考虑连接的代价,和索引

                           

                   MOLAP存储二级办法:稠密数组:数组结构;稀疏数组:稀疏矩阵结构;二维稠密数组:B树索引

                  

                  

         数据仓库到数据挖掘OLAM

                   数据仓库用于信息处理【查询 报表】 分析处理【用户通过OLAP汇总数据和细节数据之间导航】 数据挖掘【支持知识发现【KDD】】

                   


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
《Python数据分析与挖掘实战(第2版)》是一本关于Python数据挖掘的教材。它包括基础篇和实战篇两个部分。基础篇主要介绍数据挖掘的概述、基本流程、常用工具、开发环境以及Python数据挖掘的编程基础、数据探索、数据预处理、数据挖掘算法基础等内容。实战篇则包括了8个具体案例,涉及财政收入影响因素分析及预测、航空公司客户价值分析、商品零售购物篮分析、基于水色图像的水质评价、家用热水器用户行为分析与事件识别、电子商务网站用户行为分析及服务推荐、电商产品评论数据情感分析以及基于开源平台实现的航空公司客户价值分析等。 该教材的特色有三点: 1. 本书符合大数据应用开发(Python)“1X”职业技能证书要求,并充分融入了“泰迪杯”数据分析技能赛技术标准要求,实现了“课证融通”。 2. 本书从实践出发,以大量数据挖掘工程案例为主线,深入浅出地介绍了数据挖掘建模过程中的相关任务。 3. 本书是一种新形态的教材,采用“以纸质教材为核心、以互联网为载体”的方式,配备了数字资源,打造了“一书、一课、一空间”混合式教学新生态,体现了先进职业教育理念。 该教材的配套数字资源包括正文数据和代码、PPT课件、教学大纲、教学进度表、教案等。 以下是教材的目录: 第1章 数据挖掘基础 第2章 Python数据分析简介 第3章 数据探索 第4章 数据预处理 第5章 挖掘建模 第6章 财政收入影响因素分析及预测 第7章 航空公司客户价值分析 第8章 商品零售购物篮分析 第9章 基于水色图像的水质评价 第10章 家用热水器用户行为分析与事件识别 第11章 电子商务网站用户行为分析及服务推荐 第12章 电商产品评论数据情感分析 第13章 基于Python引擎的开源数据挖掘建模平台(TipDM)
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值