2019年06月_Kaka架构

转载数据中台你想知道的都在这里！

导读，文章万字左右，重点内容导读如下：数据中台是什么？数据中台和数据仓库，数据平台的关系是什么？数据中台和业务中台的区别是什么？数据中台建设的最大挑战是什么？数据中台的数据质量应该如何保障？数据中台的典型架构是怎样的？企业数据中台的团队如何构建？数据中台团队的绩效如何评价？ 1.数据中台是什么...

2019-06-30 11:38:38 4055

转载 OLTP和OLAP有何区别

OLTP和OLAP主要区别有：1、基本含义不同：OLTP是传统的关系型数据库的主要应用，主要是基本的、日常的事务处理，记录即时的增、删、改、查，比如在银行存取一笔款，就是一个事务交易。OLAP即联机分析处理，是数据仓库的核心部心，支持复杂的分析操作，侧重决策支持，并且提供直观易懂的查询结果。典型的应用就是复杂的动态报表系统。2、实时性要求不同：OLTP实时性要求高，OLTP数据库旨在使事...

2019-06-30 10:59:00 912

转载 java线程安全问题原因及解决办法

1.为什么会出现线程安全问题计算机系统资源分配的单位为进程，同一个进程中允许多个线程并发执行，并且多个线程会共享进程范围内的资源：例如内存地址。当多个线程并发访问同一个内存地址并且内存地址保存的值是可变的时候可能会发生线程安全问题，因此需要内存数据共享机制来保证线程安全问题。对应到java服务来说，在虚拟中的共享内存地址是java的堆内存,比如以下程序中线程安全问题：public c...

2019-06-30 09:42:43 404 1

转载数据中台到底是什么？

阿里提出了“大中台，小前台”，其中台事业部包括搜索事业部、共享业务平台、数据技术及产品部，数据技术及产品部应是数据中台建设的核心部门。那么，数据中台到底是什么？具体包含哪些内容？跟大数据平台是什么关系？在架构层面是怎么体现的？数据中台跟产品又有什么关系？阿里数据技术及产品部的掌门提倒了数据中台的具体含义，这里引用他说的话：“很多人会把数据比作“石油”，马老师（马云）也说过，阿里巴巴要成...

2019-06-29 20:01:05 2428

转载数据仓库之分层模型

一、各行业使用的分层模型不同的行业使用的分层也有所不同，但思想都差不多1.电信通讯stage层 ->bdl层 ->analysis层2.传统金融/保险ods层 ->pdm层 ->dm层3.互联网金融/电商odl层 ->bdl层 ->idl层 ->adl层二、专业术语ODL层（Operational Data...

2019-06-29 17:05:08 2086

转载数据仓库中的几种数据模型

数据仓库中常见的模型有：范式建模，雪花模型，星型建模，事实星座模型.星型模型星型模型是数据集市维度建模中推荐的建模方法。星型模型是以事实表为中心，所有的维度表直接连接在事实表上，像星星一样。星型模型的特点是数据组织直观，执行效率高。因为在数据集市的建设过程中，数据经过了预处理，比如按照维度进行了汇总，排序等等，数据量减少，执行的效率就比较高。雪花模型雪花模型也是维...

2019-06-29 10:39:43 1542

转载 Redis和Memcache区别，优缺点对比

1、 Redis和Memcache都是将数据存放在内存中，都是内存数据库。不过memcache还可用于缓存其他东西，例如图片、视频等等。2、Redis不仅仅支持简单的k/v类型的数据，同时还提供list，set，hash等数据结构的存储。3、虚拟内存–Redis当物理内存用完时，可以将一些很久没用到的value 交换到磁盘4、过期策略–memcache在set时就指定，例如set ke...

2019-06-24 22:13:13 328

和写流程相比，HBase读数据是一个更加复杂的操作流程，这主要基于两个方面的原因：其一是因为整个HBase存储引擎基于LSM-Like树实现，因此一次范围查询可能会涉及多个分片、多块缓存甚至多个数据存储文件；其二是因为HBase中更新操作以及删除操作实现都很简单，更新操作并没有更新原有数据，而是使用时间戳属性实现了多版本。删除操作也并没有真正删除原有数据，只是插入了一条打上”deleted”标签的...

2019-06-23 22:28:34 169

转载 Spark SQL基本概念与基本用法

1. Spark SQL概述1.1 什么是Spark SQLSpark SQL是Spark用来处理结构化数据的一个模块，它提供了两个编程抽象分别叫做DataFrame和DataSet，它们用于作为分布式SQL查询引擎。从下图可以查看RDD、DataFrames与DataSet的关系。1.2 为什么要学习Spark SQLHive，它是将Hive SQL转换成MapReduce，...

2019-06-23 18:37:16 324

转载 Spark学习之路SparkSQL的自定义函数UDF

在Spark中，也支持Hive中的自定义函数。自定义函数大致可以分为三种：UDF(User-Defined-Function)，即最基本的自定义函数，类似to_char,to_date等 UDAF（User- Defined Aggregation Funcation），用户自定义聚合函数，类似在group by之后使用的sum,avg等 UDTF(User-Defined Table-G...

2019-06-23 17:22:44 231

转载 Spark学习之路 Spark分区

一、分区的概念　　分区是RDD内部并行计算的一个计算单元，RDD的数据集在逻辑上被划分为多个分片，每一个分片称为分区，分区的格式决定了并行计算的粒度，而每个分区的数值计算都是在一个任务中进行的，因此任务的个数，也是由RDD(准确来说是作业最后一个RDD)的分区数决定。二、为什么要进行分区　　数据分区，在分布式集群里，网络通信的代价很大，减少网络传输可以极大提升性能。mapreduce框...

2019-06-23 17:17:02 155

转载 Spark学习之路 SparkSQL简单使用

一、SparkSQL的进化之路1.0以前： Shark1.1.x开始： SparkSQL(只是测试性的) SQL1.3.x: SparkSQL(正式版本)+Dataframe1.5.x:SparkSQL 钨丝计划1.6.x： SparkSQL+DataFrame+DataSet(测试版本)x: SparkSQ...

2019-06-23 17:02:15 421

转载 Apache 流框架 Flink，Spark Streaming，Storm对比分析

1.Flink架构及特性分析Flink是个相当早的项目，开始于2008年，但只在最近才得到注意。Flink是原生的流处理系统，提供high level的API。Flink也提供 API来像Spark一样进行批处理，但两者处理的基础是完全不同的。Flink把批处理当作流处理中的一种特殊情况。在Flink中，所有的数据都看作流，是一种很好的抽象，因为这更接近于现实世界。1.1 基本架构下...

2019-06-19 09:53:34 422

转载 Hbase读写流程和寻址机制

写操作流程(1) Client通过Zookeeper的调度，向RegionServer发出写数据请求，在Region中写数据。(2)数据被写入Region的MemStore，直到MemStore达到预设阈值。(3) MemStore中的数据被Flush成一个StoreFile。(4)随着StoreFile文件的不断增多，当其数量增长到一定阈值后，触发Compact合并操作，将多...

2019-06-18 22:44:52 415

转载大数据在线和离线采集常用架构剖析

1 大数据处理的常用方法大数据处理目前比较流行的是两种方法，一种是离线处理，一种是在线处理，基本处理架构如下：在互联网应用中，不管是哪一种处理方式，其基本的数据来源都是日志数据，例如对于web应用来说，则可能是用户的访问日志、用户的点击日志等。如果对于数据的分析结果在时间上有比较严格的要求，则可以采用在线处理的方式来对数据进行分析，如使用Spark、Storm等进行处理。比较贴切的...

2019-06-15 18:45:32 4124

转载 Spark中parallelize函数和makeRDD函数的区别

我们知道，在Spark中创建RDD的创建方式大概可以分为三种：（1）、从集合中创建RDD；（2）、从外部存储创建RDD；（3）、从其他RDD创建。　　而从集合中创建RDD，Spark主要提供了两中函数：parallelize和makeRDD。我们可以先看看这两个函数的声明： def parallelize[T: ClassTag]( seq: Seq[T], ...

2019-06-15 18:43:41 964

转载 Flume原理深度解析

一、Flume简介　　flume 作为cloudera 开发的实时日志收集系统，受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG（original generation），属于 cloudera。　　但随着 FLume 功能的扩展，Flume OG 代码工程臃肿、核心组件设计不合理、核心配置不标准等缺点暴露出来，尤其是在 Flume OG 的最后一个发...

2019-06-15 18:26:18 558

u010766519的博客