- 博客(9)
- 收藏
- 关注
转载 大数据分析基础——维度模型
1基本概念 维度模型的概念出自于数据仓库领域,是数据仓库建设中的一种数据建模方法。维度模型主要由事实表和维度表这两个基本要素构成。 1.1维度 维度是度量的环境,用来反映业务的一类属性 , 这类属性的集合构成一个维度 , 也可以称为实体对象。 维度属于一个数据域,如地理维度(其中包括国家、地区、 省以及城市等级别的内容)、时间维度(其中包括年、季、月、周、日等级别的内容)。...
2018-12-17 10:20:00
192
转载 Spark Shuffle原理、Shuffle操作问题解决和参数调优
转载:https://blog.csdn.net/lulongzhou_llz/article/details/78283851 1 shuffle原理 1.1 mapreduce的shuffle原理 1.1.1 map task端操作 1.1.2 reduce task端操作 1.2 spark现在的SortShuffleManager ...
2018-11-30 10:11:00
175
转载 spark分区数,task数目,core数,worker节点个数,excutor数量梳理
作者:王燚光 链接:https://www.zhihu.com/question/33270495/answer/93424104 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 输入可能以多个文件的形式存储在HDFS上,每个File都包含了很多块,称为Block。 当Spark读取这些文件作为输入时,会根...
2018-11-30 09:46:00
152
转载 spark RDD官网RDD编程指南
http://spark.apache.org/docs/latest/rdd-programming-guide.html#using-the-shell Overview(概述) 在较高的层次上,每个Spark应用程序都包含一个驱动程序,该程序运行用户的主要功能并在集群上执行各种并行操作。 Spark提供的主要抽象是弹性分布式数据集(RDD),它是跨群集节点分区的元素集合...
2018-11-29 17:14:00
197
转载 Linux目录结构
bin (binaries)存放二进制可执行文件 sbin (superuser binaries)存放二进制可执行文件,只有root才能访问 etc (etcetera)存放系统配置文件 usr (unix sharedresources)用于存放共享的系统资源 home 存放用户文件的根目录 root超级用户目录 dev (devices)用于...
2018-11-29 17:08:00
107
转载 线程池高度概括
关于线程和线程池,我们必须知道以下几个概念: 第一,线程中的基本概念, 第二,线程的生命周期 第三,单线程和多线程 第四,什么是多线程的安全问题?为什么会造成多线程的安全问题呢? 第五,线程池的原理解析 第六,常见的几种线程池的特点以及各自的应用场景 一、线程,程序执行流的最小执行单位,是进程中的实际运作单位,经常容易和进程这个概念混淆。 那么,线程和...
2018-11-29 16:42:00
87
转载 高并发面试必问:分布式消息系统Kafka简介
转载:https://blog.csdn.net/caisini_vc/article/details/48007297 Kafka是分布式发布-订阅消息系统。它最初由LinkedIn公司开发,之后成为Apache项目的一部分。Kafka是一个分布式的,可划分的,冗余备份的持久性的日志服务。它主要用于处理活跃的流式数据。 在大数据系统中,常常会碰到一个问题,整个大数据是由各个子...
2018-11-29 16:33:00
71
转载 Kafka如何保证消息不丢失不重复
转载:https://blog.csdn.net/matrix_google/article/details/79888144 首先要考虑这么几个问题: 消息丢失是什么造成的,从生产端和消费端两个角度来考虑 消息重复是什么造成的,从生产端和消费端两个角度来考虑 如何保证消息有序 如果保证消息不重不漏,损失的是什么 下面是文章详情,这里先简单总结一下: 消费端重复...
2018-11-29 16:24:00
70
转载 学在Java之前
java基础 下载JDK JDK(Java Development Kit Java开发工具包) 官方网址: www.oracle.com参阅oracle.html 安装JDK 傻瓜式安装,下一步即可。 建议:安装路径不要有中文或者特殊符号如空格等。 JRE可以选择不安装。 具体步骤: ...
2018-08-11 11:38:00
77
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人