Spark
贫僧洗头爱飘柔
这个作者很懒,什么都没留下…
展开
-
Apache Spark 2.2.0 官方文档中文版
[置顶] Apache Spark 2.2.0 ...转载 2018-04-17 13:48:26 · 343 阅读 · 0 评论 -
Spark环境搭建与IDEA的使用
Hive源码包下载mirror.bit.edu.cn/apache/spark/集群环境Master 172.16.11.97 Slave1 172.16.11.98 Slave2 172.16.11.99下载软件包#Masterwget http://mirror.bit.edu.cn/apache/spark/spark-1.6.3/spark-1.6.3-bin-h...原创 2018-04-25 10:21:53 · 1281 阅读 · 0 评论 -
Spark基础
spark概述1.1 什么是Spark(官网:http://spark.apache.org)Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、Spark Stre...原创 2018-03-26 23:19:16 · 623 阅读 · 0 评论 -
Spark性能调优
参考文章:点击打开链接Spark作业运行原理Spark中Task,Partition,RDD、节点数、Executor数、core数目的关系Spark资源参数调优• Executor的内存分为3块• 第一块:让task执行代码时,默认占executor总内存的20%• 第二块:task通过shuffle过程拉取上一个stage的task的输出后,进行聚合等操作时使用,默认也是占20%• 第三块:让...原创 2018-04-25 10:25:56 · 482 阅读 · 0 评论 -
Spark Streaming基础与实践
(一)Spark Streaming简介参考文章:点击打开链接1、Spark Streaming概念Spark Streaming是Spark核心API的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。类似于ApacheStorm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例...原创 2018-03-31 10:32:23 · 1858 阅读 · 0 评论 -
大数据面试、笔试题收集
给定a、b两个文件,各存放50亿个url,每个url各占用64字节,内存限制是4G,如何找出a、b文件共同的url?题目描述:给定a、b两个文件,各存放50亿个url,每个url各占用64字节,内存限制是4G,如何找出a、b文件共同的url? 分析:我们先来看如果要把这些URL全部加载到内存中,需要多大的空间。1MB = 2^20 = 10^6 = 100W1GB = 2^30 = 10^9 =...原创 2018-05-14 22:29:41 · 959 阅读 · 0 评论 -
spark streamming + kafka + Redis 实践
java操作Redis:http://blog.csdn.net/xyang81/article/details/51918129数据order.txtA 202.106.196.115 手机 iPhone8 8000B 202.106.0.20 服装 布莱奥尼西服 199C 202.102.152.3 家具 婴儿床 2000D 202.96.96.68 家电 电饭锅 1000F...原创 2018-07-18 20:48:59 · 1261 阅读 · 0 评论