大数据
文章平均质量分 88
lzq20115395
这个作者很懒,什么都没留下…
展开
-
OLTP和OLAP区别
转载自:https://blog.csdn.net/bitcarmanlee/article/details/51011515OLTP和OLAP的区别联机事务处理OLTP(on-line transaction processing) 主要是执行基本日常的事务处理,比如数据库记录的增删查改。比如在银行的一笔交易记录,就是一个典型的事务。 OLTP的特点一般有:1.实时性要求高。...转载 2018-06-20 11:27:55 · 2605 阅读 · 0 评论 -
Spark源码之checkpoint方法解析
转载自:https://blog.csdn.net/do_yourself_go_on/article/details/74946288今天在阅读Spark源码的时候看到了checkpoint方法,之前也在处理数据的的时候用到过,但是没有深入理解这个方法,今天结合官方文档以及网上博客重新认识了一下这个方法,这里做个总结。主要从两个方面讲解: 1.官方对这个方法的解释 2.这个方法的使用...转载 2018-06-27 18:49:50 · 182 阅读 · 0 评论 -
HDFS原理综述篇
概述HDFS即Hadoop分布式文件系统,主要用于支持海量数据的分布式存储管理,适合一次写,多次读取数据的应用场景。在HDFS文件系统中有几个重要的守护进程协调的运行来提供服务:名称节点进程辅助名称节点进程数据节点进程 HDFS也是主从架构的。运行名称节点进程的服务器我们称之为主节点,运行数据节点进程的服务器称之为从节点。HDFS向外提供一个统一的文件系统命名空间,用户就像使用...转载 2018-06-28 18:48:50 · 283 阅读 · 0 评论 -
淘宝api
相近负责的项目,需要对接淘宝提供的 淘宝api,获取淘宝客的订单数据。在此过程中遇到了很多坑,特在此mark一下,可能对于一些大佬来说很简单,如果发现有错误欢迎指出。所有过程如下所示:基于Intellij IDEA 创建Maven项目将淘宝API依赖的jar包安装到本地maven仓库根据公开的请求实例编写java脚本,获取返回的订单数据(Jason格式)以javabean的形式解析js...原创 2018-07-28 17:48:50 · 9106 阅读 · 12 评论 -
数据库范式与反范式
最近涉及到设计和建立数仓表,数据总体划分为ods/fact/aggr/dws/rpt/dim层,具体结构如下图所示: 遵从设计规则:以星型模型为设计模式, 维度采用反范式化, 且维度数据要整个仓库可共用, 数据准确性要保证, 事实表允许冗余部分维度数据。针对其中几个地方,解释并mark一下。设计模式多维数据模型是最流行的数据仓库的数据模型,多维数据模型最典型的数据模式包括星型模式、雪...原创 2018-07-26 21:26:58 · 1163 阅读 · 0 评论 -
MR中Shuffle过程中sort总结
原文: http://blog.csdn.net/u013080251/article/details/60146294写在前面的话: 新学期开学想重新复习一下Hadoop的知识,不断更新自己的知识库,在今天晚上阅读的过程中发现,有人已经总结了Mapreduce在shuffle过程中sort的实施。我以前从来都没有深入探究过sort过程应用的算法,以及sort的次数。今天我将其总结一下: ...转载 2018-08-30 12:07:12 · 1546 阅读 · 0 评论