目录
一、数据、信息、知识三者之间的关系(P7)
数据、信息、知识这三者是依次递进的关系,代表着人们认知的转化过程。数据指的是未经加工的原始素材,表示的是客观的事物。而通过对大量的数据进行分析,可以从中提取出信息。人们有了大量的信息后,会对信息进行总结归纳,将其体系化,就形成了知识。数据、信息、知识的层次关系如图1-2所示。
数据是宝贵的财富,只有充分有效地利用这种财富,识别信息、获取知识、辅助商务决策,才能从中获取价值。数据、信息、知识和决策之间的关系如图1-3所示
二、商务智能系统架构图 (P11)
(1)业务层,指企业的业务系统,如企业资源计划 ( Enterprise ResourcePlanning,ERP)、客户关系管理( Customer Relationship Management,CRM)、供应链管理(Supply Chain Management,SCM)和其他系统,这些系统是商务智能获取数据的来源地。
(2)技术层,负责对来自业务层的原始数据进行抽取、转换、加载等加工,并把处理好的数据放人数据仓库,以及利用数据集成服务将数据进行实时存储。
(3)功能层,将技术层处理好的数据进行分析,以辅助运营和决策支持,并将得到的模型库,知识库以及关键绩效指标提供给组织层。这些分析软件分为以用户为导向的EIS、数据分析、数据挖掘、OLAP等。
各种知识信息等,利用商业绩效(4)组织层,将功能层得到的数据分析结果、管理(Business Performance Management,BPM)、业务活动监控( Business ActivityMomiloring,BAM)、前后台信息部门分工等,确保商务智能的实施
(5)战略层,在以上4层的支撑下,实施战略规划,并利用“平衡记分卡”管理企业绩效,真正实现商务智能全球化、虚拟化、透明化
三、商务智能关键技术(P12)
商务智能利用多项技术相互配合,从大量数据中找寻隐匿在其中的信息,然后将这些信息转化为知识,进而辅助决策者进行商业决策,它是一种决策的辅助手段。此外,商务智能还是一套完整的解决方案,将数据预处理、数据仓库、数据挖掘、在线分析处理以及数据可视化技术结合起来应用到商业活动中。商务智能从大量异构数据源中收集数据,经过抽取、转换和加载的过程,将数据存储到数据仓库中,然后利用数据分析、挖掘工具和在线分析处理工具对信息进行再加工,将信息转变为可辅助决策的知识,最后将知识利用可视化工具以简单易懂的报表等形式展示给用户,以实现技术服务与决策的目的。
四、商务智能相关应用 (P17)
零售、金融、客户关系、电信、教育、电子商务和医疗业等。
五、什么是数据仓库?
一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)
六、数据仓库和数据库区别?
对比内容
数据库
数据仓库
数据内容
当前值
历史的、存档的、归纳的、计算的数据 数据目标
面向业务操作程序,重复处理
面向主题域、管理决策分析应用 数据特性
动态变化、按字段更新
静态、不能直接更新、只定时添加 数据结构
高度结构化、复杂、适合操作计算 简单、适合分析
使用频率
高
中到低
数据访问量
每个事务只访问少量记录
有的事务可能要访问大量记录
对响应时间的要求
以秒为单位计量
以秒、分钟,甚至小时为计量单位
七、ETL(P43)
抽取,转换,加载
ETL(Extract-Transform-Load)是将在线事务处理系统的数据经过抽取,转换之后加载到数据仓库的过程,目的是将企业中分散、零乱、标准不统一的数据整合到一起.为企业的决策提供分析依据。 ETL BI 项目的一个重要环节,也是构建数据仓库的重要一环。用户从数据源抽取出所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型、将数据加载到数据仓库中去
2.2.1 数据抽取
源数据库中的业务数据一般都是十分繁杂的,但数据仓库的数据是面向主题的,源数据库中的一些数据可能并不是该决策所需要的,所以在源数据导人到数据仓库之前,需要先确定哪些数据是与该决策相关的,数据的抽取可以过滤掉许多不必要的数据,有效减少数据仓库的存储消耗。2.2.2 数据转换
数据仓库的数据来自多种数据源,不同的数据源可能由不同的平台提供,使用不同的数据库管理系统,数据格式也可能不同。源数据在被加载到数据仓库之前,需要进行一定的数据转换,数据转换的任务主要是进行不一致的数据转换、数据粒度的转换,以及一些商务规则的计算。2.2.4 数据装载
数据转换、清洗结束后,需要把数据装载到数据仓库中。
八、建模阶段(解释)、方法(P147)
九、实操(Hive)(P73)
- 在Hive中创建一个数据库dblab
- 进入数据库dblab
- 创建一个外部表bigdata_user,它包含字段(id, uid, item_id, behavior_type, item_category, date, province)
- 查询表格,看看bigdata_user是否已经创建成功
- 查询前10位数据记录
- 查看bigdata_user的表结构
- 查询前20位用户购买商品时的时间和商品的种类
- 查出uid不重复的数据有多少条
- 给定时间'2014-12-12',给定地点'江西',给定购买行为,整个数据有多少条
- 给定购买商品的数量范围,查询给定时间'2014-12-12',并且购买行为超过5次的用户uid
- 在Hive中创建一个数据库dblab
1) create database dblab;
2) use dblab;
3) create external table dblab.bigdata_user(id int,uid string,item_id string,behavior_type int,item_category string,visit_date date,province string) comment'Welcome to xmu dblab!' row format delimited fields terminated by '\t' stored as textfile location '/bigdata/dataset'4) show tables;
5) select * from bigdata_user limit 10;
6) desc bigdata_user;
7) select visit_date,item_category from bigdata_user limit 20;
8) select count(distinct uid) from bigdata_user;
9) select count(*) from bigdata_user where province='江西' and visit_date='2014-12-12' and behavior_type='4';
10) select uid from bigdata_user where behavior_type='4' and visit_date='2014-12-12' group by uid having count(behavior_type='4')>5;
说明:id为序号,uid为用户号,behavior_type为用户行为,'4'表示用户进行了购买行为,item_category为商品类别,visit_date为访问日期,province为省。
十、多维体系结构(P58)+事实表的分类、结构(P63)
事务事实表记录的事务层面的事实,保存的是最原子的数据,也称“原子事实表”。 事务事实表中的一行对应于空间和时间点上的度量事件。
周期快照事实表中的一行总结了在标准周期内发生的许多度量事件, 以具有规律性的、可预见的时间间隔来记录事实,例如一天、一周或一个月的多个度量。其粒度是周期性的时间段,而不是单个事务。
累积快照事实表中的一行总结了在业务流程开始和结束之间的可预测步骤中发生的度量事件
十一、维度建模设计的主要流程(解释)(P65)
业务处理过程:是机构中进行的自然业务活动,它们一般都由源系统提供支持。
粒度声明:就是明确解释说明各事实表的每行实际代表的内容。
确认维度:某一业务过程事件一般都会涉及“谁、什么、何处、何时、为什么、如何”等因素,维度提供围绕上述因素的背景。
确认事实:(1)针对某个特定的行为动作,建立一个以行为活动最小单元为粒度的事实表;(2)针对某个实体对象在当前时间上的状况,要先明确这个实体对象所处的不同阶段,在不同阶段存储它的快照。(3)针对业务活动中的重要分析和跟踪对象,统计在整个企业不同业务活动中的发生情况
十二、OLAP基本概念(P87)、分类(P98)
ROLAP:表示基于关系数据库的 OLAP 实现(Relational OLAP)。以关系数据库为核心,以关系型结构进行多维数据的表示和存储。
MOLAP 将 OLAP 分析所用到的多维数据物理上存储为多维数组的形式,形成“立方体”的结构
混合型 OLAP(HOLAP):它能把 MOLAP和 ROLAP 两种结构的优点结合起来。这种新架构既能够保证类似于 MOLAP 方式的高性能,也能基于更大的数据量进行分析,还不用定期将数据库里的数据刷新到 OLAP 服务器中来保证数据的实效性
十三、OLAP多维数据分析(P94)
切片 (Slice):在多维数据结构中,在其一个维度上进行的选择操作,切片的结果是得到了一个二维的平面数据。
切块(Dice):在多维数据结构中,在其两个或多个维度上进行的选择操作,切片的结果是得到了一个子立方体。
上卷是在数据立方体中执行聚集操作,通过在维度级别中上升或通过消除某个或某些维度来观察更概括的数据。
下钻是通过在维度级别中下降或通过引入某个或某些维度来更细致的观察数据。
旋转(Rotate)/转轴(Pivot):通过旋转可以得到不同视角的数据。
十四、OLAP操作语言(P109)
十五、客户关系管理(P131)
1.客户的维持与获取
帮助企业发现即将流失的客户,进行挽留客户;获得新客户。
2.客户群体分类
把客户分成不同类,每个类里面具有相似属性,不同类的客户属性尽量不同。
3.交叉销售
建立个人和团队关系,帮助企业分析最适合企业的。
4.客户诚信度分析
对客户的诚信度进行评级,进而筛选。
十六、日常经营分析(P132)
商品分析
销售分析
会员卡分析
财务分析