第一章intro
- 为什么要使用数据挖掘?
当前有大量的数据被收集并储存下来,数据中蕴涵着大量可以被挖掘出的知识用于服务客户。 - 数据挖掘是通过挖掘获得大量数据库中有用、有益、有价值并难以理解的pattern。
Data Warehouses
A subject-oriented, integrated, cleaned collection of data in support of management’s decision making process
Application
- 社交媒体 2. 推荐系统 3. 医疗领域挖掘患者信息 4. 金融领域
第二章data warehouse
OLTP (on-line transaction processing)
主要任务面向于传统的数据库管理系统
每日的操作。读取写入…
OLAP (on-line analytical processing)
主要任务面向于data warehouse
数据分析以及决策指定
Distinct
OLPT-customer;OLAP-market
| OLPT | OLAP |
| customer| market |
| current, detailed | historical , consolidated|
| update | read-only but complex queries|
Schema
Star Schema
Snowflake Schema
snowflake schema较之star schema有了更详细的描写,属性之下还有属性
Data Cube Operation
Roll up
在某一维度上对measure进行求和
Drill down
Roll up的反向操作,把高纬度的求和数据返回为低纬度的求和数据或是详细数据。
Slice and dice
选择出其中一部分数据
图例
Exercise
这位师兄做了详细的作业讲解,感谢大佬分享。
https://blog.csdn.net/qq_45957458/article/details/127236288
Bitmap Index
将特征向量化,每一个样本的特征对应一个位图索引中的向量,根据向量来描述样本的特征。实际上是进行位运算,查询速度会大大加快
pro
- 通过索引映射到向量中,有效的减少了存储的空间。
- 通过位运算进行查询,相较于传统的查询方法有着很大的速度提高
cons
- 更新效率低下,由于位图索引是基于向量的,若要实现频繁的更新,则效率较低
- 面向高维的特征时,(类似于一个类别特征有很多个类别),位图索引可能会消耗更大的存储空间。