![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 65
junweishiwo
这个作者很懒,什么都没留下…
展开
-
MongoDB杂记
一、MongoDB的并发性能较强,一个重要的原因是,它不需要进行复杂的表连接操作,即使是复杂信息,也是通过一个document进行存储,当关系型数据库需要锁定多张表进行关联操作时,MongoDB只需要一次查询即可返回结果,占用表的数量和时间都很短,这大大提高了MongoDB的并发性;二、MongoDB中的Collection就相当于关系数据库中的table,document相当于row,而且,...原创 2018-09-17 12:05:04 · 143 阅读 · 0 评论 -
Spark学习
简介基于DAG的任务调度执行机制,采用内存计算的方式,用于大规模数据处理的快速、通用引擎,尤其适用于迭代计算。Spark具有运行模式多样的特点,可以独立部署在集群中,也可以运行在Hadoop集群中,可以部署在EC2云环境中。可以访问HDFS、Cassandra、HBase、Hive等多种数据源。Spark生态主要包括Spark Core(数据处理引擎,也为其他组件提供基础数据处理组件)...原创 2018-09-29 15:49:17 · 208 阅读 · 0 评论 -
Hadoop圈常用组件简介
Pig提供类似SQL的Pig Latin语言,支持filter,groupby,join,orderby等,支持用户自定义函数;pig会将用户编写的脚本转换为MR(与Hive类似),并自动优化,执行MR进行查询操作。pig可以加载数据、表达转换数据并存储最终结果。先使用Load语句从文件中加载数据,再通过转换或查询语句进行数据处理,最后通过Store语句将数据输出到文件中或加载到Hive中...原创 2018-09-28 17:49:41 · 366 阅读 · 0 评论 -
Hadoop架构学习
HDFS HA中,设计了两个NN,一个处于活跃状态,一个处于待命状态,由Zookeeper进行状态监测、控制和切换,由于待命NN需要时刻准备接替活跃状态NN的工作,所以需要待命NN与活跃NN实时保持元数据的一致性,所以,活跃状态NN和待命状态NN会共用一份共享存储系统,实时同步EditLog信息,而映射表信息的同步是通过DN同时向活跃状态NN和待命状态NN汇报的方式实现的。HDFS Feder...原创 2018-09-28 15:44:17 · 146 阅读 · 0 评论 -
数据仓库学习之Hive和Impala
数据仓库的概念:一个面向主题的、集成的、相对稳定的、可反映历史变化的数据集合,用于支持管理决策。Hive可以理解为是一种用户编程接口,它本身并不直接存储数据也不处理数据,而是通过接口的封装和调用,通过Hadoop的组件进行相关操作的。通过Hive可以很方便的将构建在关系数据库上的数据仓库称赞到Hadoop上,并且通过HiveSQL运行MapReduce进行分布式查询计算。Hive的特点适合...原创 2018-09-28 10:16:11 · 1460 阅读 · 1 评论 -
图计算学习笔记
通用图数据产品分类:1.基于遍历算法的、实时的图数据库:Neo4j、DEX、OrientDB、Infinite Graph2.以图顶点为中心的、基于消息父老乡亲批处理的并行引擎:GoldenOrb、Giraph、Pregel和Hama。基于BSP(Bult Synchronous Parallel Computing Model,即“大同步”模型)模型实现并行图处理作业。BSP过程包括...原创 2018-10-05 10:01:00 · 628 阅读 · 0 评论 -
大数据原理笔记——MapReduce
解决能够满足“分而治之”处理要求的场景。处理结果之间不能相互依赖。map任务之间是不能通信的,reduce之间也不会发生信息交换。处理过程:inputformat,负责数据的输入,验证数据格式及文件切分(split),通过RR(record-reader)过程,根据切片后文件的位置信息,从hdfs中将文件读取出来以K-V的形式传递给map,map后的中间结果经过shuffle,对中间结果进...原创 2018-09-20 12:04:02 · 321 阅读 · 0 评论 -
数据仓库之Data Vault模型总结
一,Data Vault模型有几个主要的组件,这里先总结一下:1.Hub组件,是一个数据表,用于记录在业务应用中常用到的业务实体键值,如员工ID,发票号、客户编号、车辆号等。表内包括几个关键字段:代理主键(Surrorgate Key),即hub表的主键;业务实体主键(Business Key),记录业务键值;装载时间(Load Data/Time Stamp),记录该业务键值的记录时间;...原创 2018-09-25 17:25:11 · 17373 阅读 · 1 评论 -
大数据原理笔记——云数据库(三)
SQL Azure云端关系型数据库,构建在Sql Server之上。以表格组(table group)和行组(row group)作为分区逻辑主体,将相关表格中存在相关性的记录(外键关联),分到同一区域进行存储。同一行组需要在同一分区中。事务也只支持同一行组的事务,不支持跨分区事务。冗余存储,分区是复制、迁移、负载的基本单位,物理模型与HDFS的备份策略类似,默认分为3个复本,每个复本...原创 2018-09-19 18:10:27 · 332 阅读 · 0 评论 -
大数据原理笔记——云数据库(二)
Amazon AWS及云数据库 总体架构图一、AWS Globle Infrastructure(全球基础设施)1、划分为10个region,相互独立,自成云服务体系;2、Availabilet...原创 2018-09-19 17:29:35 · 246 阅读 · 0 评论 -
大数据原理笔记——云数据库(一)
云数据库的基础是云计算,这自不必多说。因此云数据库可以满足以下三点个性化需求,都是从云中获取的:1、海量数据存储;2、低成本数据存储;3、根据存储需求动态调整;云数据库,只是将各类数据库(SQL/NOSQL),以云和服务的形式提供给用户使用,并非一种新的数据库,它并没有自己独立的数据存储模型等。对用户来说,它只是使用方式的变化。Amazon的云数据库一个优点是数据库各类丰富:R...原创 2018-09-19 11:20:05 · 1260 阅读 · 0 评论 -
大数据治理平台建设过程(根据某银行大数据治理平台建设方案总结)
一、数据治理架构 分为三个层次,分别为战略与治理保障、大数据管理和大数据应用与服务,其中战略与治理保障包括,数据战略规划与评估,数据治理组织与职责、数据制度与管理流程;大数据管理包括数据标准管理、架构与模型管理、质量管理、生存周期管理以及安全管理;大数据应用与服务包括,数据分析、开放共享以及数据服务。该架构依照国标数据管理能力成熟度模型设计。二、数据质量问题的发现与整治过程...原创 2018-09-18 17:37:04 · 9058 阅读 · 1 评论 -
流计算学习笔记
流数据的特征:1.数据快速持续到达;2.来源众多,格式复杂;3.数据量大,但不十分注重存储,经过处理后要么丢弃要么归档;4.注重数据整体价值而非个体价值;5.新到达的数据顺序无法控制;6.随着时间的流逝而价值降低。流计算:实时获取来自不同数据源的海量数据,实时分析处理,获得有价值的信息。实时查询服务与传统查询服务的区别在于,传统查询服务是用户主动查询,而实时查询服务...原创 2018-09-30 17:00:26 · 807 阅读 · 0 评论