自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

转载 大数据分析基础——维度模型

1基本概念 维度模型的概念出自于数据仓库领域,是数据仓库建设中的一种数据建模方法。维度模型主要由事实表和维度表这两个基本要素构成。 1.1维度 维度是度量的环境,用来反映业务的一类属性 , 这类属性的集合构成一个维度 , 也可以称为实体对象。 维度属于一个数据域,如地理维度(其中包括国家、地区、 省以及城市等级别的内容)、时间维度(其中包括年、季、月、周、日等级别的内容)。...

2018-12-17 10:20:00 192

转载 Spark Shuffle原理、Shuffle操作问题解决和参数调优

转载:https://blog.csdn.net/lulongzhou_llz/article/details/78283851 1 shuffle原理   1.1 mapreduce的shuffle原理     1.1.1 map task端操作     1.1.2 reduce task端操作    1.2 spark现在的SortShuffleManager ...

2018-11-30 10:11:00 175

转载 spark分区数,task数目,core数,worker节点个数,excutor数量梳理

作者:王燚光 链接:https://www.zhihu.com/question/33270495/answer/93424104 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。 当Spark读取这些文件作为输入时,会根...

2018-11-30 09:46:00 152

转载 spark RDD官网RDD编程指南

http://spark.apache.org/docs/latest/rdd-programming-guide.html#using-the-shell Overview(概述) 在较高的层次上,每个Spark应用程序都包含一个驱动程序,该程序运行用户的主要功能并在集群上执行各种并行操作。 Spark提供的主要抽象是弹性分布式数据集(RDD),它是跨群集节点分区的元素集合...

2018-11-29 17:14:00 197

转载 Linux目录结构

bin (binaries)存放二进制可执行文件 sbin (superuser binaries)存放二进制可执行文件,只有root才能访问 etc (etcetera)存放系统配置文件 usr (unix sharedresources)用于存放共享的系统资源 home 存放用户文件的根目录 root超级用户目录 dev (devices)用于...

2018-11-29 17:08:00 107

转载 线程池高度概括

关于线程和线程池,我们必须知道以下几个概念: 第一,线程中的基本概念, 第二,线程的生命周期 第三,单线程和多线程 第四,什么是多线程的安全问题?为什么会造成多线程的安全问题呢? 第五,线程池的原理解析 第六,常见的几种线程池的特点以及各自的应用场景 一、线程,程序执行流的最小执行单位,是进程中的实际运作单位,经常容易和进程这个概念混淆。 那么,线程和...

2018-11-29 16:42:00 87

转载 高并发面试必问:分布式消息系统Kafka简介

转载:https://blog.csdn.net/caisini_vc/article/details/48007297 Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。 在大数据系统中,常常会碰到一个问题,整个大数据是由各个子...

2018-11-29 16:33:00 71

转载 Kafka如何保证消息不丢失不重复

转载:https://blog.csdn.net/matrix_google/article/details/79888144 首先要考虑这么几个问题: 消息丢失是什么造成的,从生产端和消费端两个角度来考虑 消息重复是什么造成的,从生产端和消费端两个角度来考虑 如何保证消息有序 如果保证消息不重不漏,损失的是什么 下面是文章详情,这里先简单总结一下: 消费端重复...

2018-11-29 16:24:00 70

转载 学在Java之前

java基础 下载JDK JDK(Java Development Kit Java开发工具包) 官方网址: www.oracle.com参阅oracle.html 安装JDK   傻瓜式安装,下一步即可。 建议:安装路径不要有中文或者特殊符号如空格等。 JRE可以选择不安装。   具体步骤: ...

2018-08-11 11:38:00 77

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除