大数据入门基础

最新推荐文章于 2024-08-20 15:12:15 发布

MustangC

最新推荐文章于 2024-08-20 15:12:15 发布

阅读量493

点赞数

1.什么是大数据？有什么特点？
定义：“大数据”的经典定义是可以归纳为4个V：
        海量的数据规模（volume）、
        快速的数据流转和动态的数据体系（velocity）、
       多样的数据类型（variety）、

巨大的数据价值（value）、

数据的准确性和可信赖度，即数据的质量（Veracity）

大数据核心是利用多台计算机组成的分布式系统来协调解决单台计算机所不能解决的大数据的计算，存储等问题
特点：体量大，速度快，类型多，价值

2.数据仓库Datawarehouse
    从本质上讲，设计数据仓库的初衷是为操作型系统过渡到决策支持系统提供一种工具
或整个企业范围内的数据集成环境，并尝试解决数据流相关的各种问题。
这些问题包括如何从传统的操作型处理系统中提取与决策主题相关的数据，
如何经过转换把分散的、不一致的业务数据转换成集成的、低噪声的数据等。
    Bill Inmon 认为数据仓库就是面向主题的（Subject-Oriented ）、集成的（Integrated）、
非易失的（Non-Volatile）和时变的（Time-Variant ）数据集合，用以支持管理决策。
数据仓库不是可以买到的产品，而是一种面向分析的数据存储方案。对于数据仓库的概念
可以从两个层次理解：
首先，数据仓库用于支持决策，面向分析型数据处理，
不同于提高业务效率的操作型数据库；
其次，数据仓库对分布在企业中的多个异构数据源集成，按照决策主题选择数据
并以新的数据模型存储。此外，存储在数据仓库中的数据一般不能修改。
数据仓库主要有以下特征。
1)面向主题
      在操作型数据库中，各个业务系统可能是相互分离的。而数据仓库是面向主题的。
      逻辑意义上，每一个商业主题对应于企业决策包含的分析对象。
      操作型处理对数据的划分并不适用于决策分析。而基于主题组织的数据则不同，
      它们被划分为各自独立的领域，每个领域有各自的逻辑内涵但互不交叉，
      在抽象层次上对数据进行完整、一致和准确的描述。一些主题相关的数据通常
      分布在多个操作型系统中。
2)集成性
      不同操作型系统之间的数据一般是相互独立、异构的。而数据仓库中的数据是对
      分散的数据进行抽取、清理、转换和汇总后得到的，这样保证了数据仓库内的数
      据关于整个企业的一致性。这些系统内部数据的命名可能不同，数据格式也可能不同。
      把不同来源的数据存储到数据仓库之前，需要去除这些不一致。
3)数据的非易失性
      操作型数据库主要服务于日常的业务操作，使得数据库需要不断地对数据实时更新，
      以便迅速获得当前最新数据，不至于影响正常的业务运作。在数据仓库中只要保存
      过去的业务数据，不需要每一笔业务都实时更新数据仓库，而是根据商业需要每隔
      一段时间把一批较新的数据导入数据仓库。事实上，在一个典型的数据仓库中，通
      常不同类型数据的更新发生的频率是不同的。例如产品属性的变化通常每个星期更新一次，
      地理位置上的变化通常一个月更新一次，销售数据每天更新一次。
      数据非易失性主要是针对应用而言。数据仓库的用户对数据的操作大多是数据查询或比较
      复杂的挖掘，一旦数据进入数据仓库以后，一般情况下被较长时间保留。数据仓库中一般
      有大量的查询操作，但修改和删除操作很少。因此，数据经加工和集成进入数据仓库后是
      极少更新的，通常只需要定期的加载和更新。
4)数据的时变性
      数据仓库包含各种粒度的历史数据。数据仓库中的数据可能与某个特定日期、星期、
      月份、季度或者年份有关。数据仓库的目的是通过分析企业过去一段时间业务的经营状况，
      挖掘其中隐藏的模式。虽然数据仓库的用户不能修改数据，但并不是说数据仓库的数据是
      永远不变的。分析的结果只能反映过去的情况，当业务变化后，挖掘出的模式会失去时效性。
      因此数据仓库的数据需要更新，以适应决策的需要。从这个角度讲，数据仓库建设是一个项目，
      更是一个过程。数据仓库的数据随时间的变化表现在以下几个方面。
（1）数据仓库的数据时限一般要远远长于操作型数据的数据时限。
（2）操作型系统存储的是当前数据，而数据仓库中的数据是历史数据。
（3）数据仓库中的数据是按照时间顺序追加的，它们都带有时间属性。
      数据仓库主要包括数据的提取、转换与装载（ETL ）、元数据、数据集市和操作数据存储等部分
3. 操作-OLTP-事物-transaction和分析-OLAP-历史的区别
    联机分析处理(OLAP)
    联机分析处理 (OLAP) 的概念最早是由关系数据库之父E.F.Codd于1993年提出的，
他同时提出了关于OLAP的12条准则。OLAP的提出引起了很大的反响，OLAP作为一
类产品同联机事务处理 (OLTP) 明显区分开来。
    当今的数据处理大致可以分成两大类：联机事务处理OLTP（on-line transaction processing）、
联机分析处理OLAP（On-Line Analytical Processing）。OLTP是传统的关系型数据库的主要应用，
主要是基本的、日常的事务处理，例如银行交易。OLAP是数据仓库系统的主要应用，支持复杂的
分析操作，侧重决策支持，并且提供直观易懂的查询结果。下表列出了OLTP与OLAP之间的比较。
    OLAP是使分析人员、管理人员或执行人员能够从多角度对信息进行快速、一致、交互地存取,
从而获得对数据的更深入了解的一类软件技术。OLAP的目标是满足决策支持或者满足在多维环
境下特定的查询和报表需求,它的技术核心是"维"这个概念。
    “维”是人们观察客观世界的角度,是一种高层次的类型划分。“维”一般包含着层次关系,这种
层次关系有时会相当复杂。通过把一个实体的多项重要的属性定义为多个维(dimension)，使
用户能对不同维上的数据进行比较。因此OLAP也可以说是多维数据分析工具的集合。
    OLAP的基本多维分析操作有钻取（roll up和drill down）、切片（slice）和切块（dice）、
以及旋转（pivot）、drill across、drill through等。
    ·钻取是改变维的层次，变换分析的粒度。它包括向上钻取（roll up）和向下钻取（drill down）。
roll up是在某一维上将低层次的细节数据概括到高层次的汇总数据，或者减少维数；
而drill down则相反，它从汇总数据深入到细节数据进行观察或增加新维。
    ·切片和切块是在一部分维上选定值后，关心度量数据在剩余维上的分布。
如果剩余的维只有两个，则是切片；如果有三个，则是切块。
    ·旋转是变换维的方向，即在表格中重新安排维的放置（例如行列互换）。

联机事务处理OLTP（on-line transaction processing）
    主要是执行基本的、日常的事务处理，比如在银行存取一笔款，就是一个事务交易。OLTP的特点一般有：

       1.实时性要求高；

       2.数据量不是很大；

       3.交易一般是确定的，所以OLTP是对确定性的数据进行存取;

       4.并发性要求高并且严格的要求事务的完整,安全性。

       联机分析处理OLAP（On-Line Analytical Processing）是数据仓库系统的主要应用，
   支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。典型的应用
   就是复杂的动态的报表系统。OLAP的特点一般有：

    1.实时性要求不是很高，很多应用的顶多是每天更新一下数据；

    2.数据量大，因为OLAP支持的是动态查询，所以用户也许要通过将很多数据的统计后
   才能得到想要知道的信息，例如时间序列分析等等，所以处理的数据量很大;

    3.因为重点在于决策支持，所以查询一般是动态的，也就是说允许用户随时提出查询的要求。
   所以在OLAP中通过一个重要概念“维”来搭建一个动态查询的平台（或技术），供用户自己去
   决定需要知道什么信息。

   区别：


　　　　　　　　　　　OLTP 　　　　　　　　　　　　　　　　OLAP

                   －－－－－－－－－－－－－－－－－－－－－－－－－－－－－－－

   用户　　　　操作人员,低层管理人员               决策人员,高级管理人员

   功能　　　　日常操作处理                              分析决策

   DB设计　　　面向应用                                  面向主题

   数据　　　　当前的,最新的细节的,二维的分立的   历史的,聚集的,多维的集成的, 统一的

   存取　　　　读/写数十条记录                         读上百万条记录

   工作单位　　　简单的事务                               复杂的查询

   用户数　　　　上千个                                   上百个

   DB大小　　　　100MB-GB                                 100GB-TB

4.分析ETL，挖掘DataMine的区别
    数据分析只是在已定的假设，先验约束上处理原有计算方法，统计方法，将数据分析转化为信息，
而这些信息需要进一步的获得认知，转化为有效的预测和决策，这时就需要数据挖掘。
数据挖掘与数据分析两者紧密相连，具有循环递归的关系，数据分析结果需要进一步进行数据
挖掘才能指导决策，而数据挖掘进行价值评估的过程也需要调整先验约束而再次进行数据分析。
而两者的具体区别在于：
（其实数据分析的范围广，包含了数据挖掘，在这里区别主要是指统计分析）
 数据量上：数据分析的数据量可能并不大，而数据挖掘的数据量极大。
 约束上：数据分析是从一个假设出发，需要自行建立方程或模型来与假设吻合，而数据挖掘不需要假设，
           可以自动建立方程。
 对象上：数据分析往往是针对数字化的数据，而数据挖掘能够采用不同类型的数据，比如声音，文本等。
 结果上：数据分析对结果进行解释，呈现出有效信息，数据挖掘的结果不容易解释，对信息进行价值评估，
           着眼于预测未来，并提出决策性建议。
数据分析是把数据变成信息的工具，数据挖掘是把信息变成认知的工具，如果我们想要从数据中提取一定的
     规律（即认知）往往需要数据分析和数据挖掘结合使用。
5.hadoop
    Hadoop是一个由Apache所开发的分布式系统基础架构。
用户可以在不了解分布式底层细节的情况下，开发分布式程序。可以充分利用集群的威力进行高速运算和存储。
Hadoop基本内容
    1.Hadoop mapreduce
    2.Hadoop distributed file system
    3.Hadoop common 工具程序和子项目。