BigData-器
文章平均质量分 84
古月慕南
这个作者很懒,什么都没留下…
展开
-
Spark初试之WordCount
本文详细记录了在Spark集群中的第一个程序:WordCount的编写、执行过程。原创 2016-04-07 10:24:37 · 1216 阅读 · 0 评论 -
CDH 5.12.1 离线部署指南(附spark2.2.0集成指南)
CDH 5.12.1离线部署指南(附spark2.2.0集成指南)由于国内的网络原因,CDH在国内几乎无法实现在线安装,本文将介绍CDH离线安装方式,所有安装包下载后传输到内网安装,由于版本较新的原因,安装过程的坑还是很多的,在此记录一下。一、 硬件说明一共6台节点:master:32.31.104.159slave1:32.31.104.161slave2:3原创 2017-10-13 12:40:27 · 11276 阅读 · 4 评论 -
Spark2.10中使用累加器、注意点以及实现自定义累加器
累加器(accumulator)是Spark中提供的一种分布式的变量机制,其原理类似于mapreduce,即分布式的改变,然后聚合这些改变。累加器的一个常见用途是在调试时对作业执行过程中的事件进行计数。累加器简单使用Spark内置的提供了Long和Double类型的累加器。下面是一个简单的使用示例,在这个例子中我们在过滤掉RDD中奇数的同时进行计数,最后计算剩下整数的和。 val原创 2017-04-24 19:38:42 · 16432 阅读 · 9 评论 -
理解Spark RDD
RDD是Spark中的一个很基础,很核心的概念,其全称是弹性分布式数据集,这是一种全新的数据抽象模型。在Spark中处理数据,无论是用BDAS(伯克利数据分析栈)中的哪一个数据分析模型,最终都会将数据转化成基础的RDDs,将通过各种API定义的操作,解析成对于基础的RDD操作。这样一来通过一个底层的Spark执行引擎就可以满足各种计算模式。这也是Spark设计团队提出“one thing to rule them all”的底气所在。原创 2016-04-12 11:51:08 · 2507 阅读 · 0 评论 -
Apache Spark 内存管理详解
Spark 作为一个基于内存的分布式计算引擎,其内存管理模块在整个系统中扮演着非常重要的角色。理解 Spark 内存管理的基本原理,有助于更好地开发 Spark 应用程序和进行性能调优。本文旨在梳理出 Spark 内存管理的脉络,抛砖引玉,引出读者对这个话题的深入探讨。本文中阐述的原理基于 Spark 2.1 版本,阅读本文需要读者有一定的 Spark 和 Java 基础,了解 RDD、Shu转载 2017-05-04 12:47:09 · 1006 阅读 · 0 评论 -
windows中以本地模式运行spark遇到“Could not locate executable null\bin\winutils.exe in the Hadoop binarie”
本方法适用于win7、win10在windows环境下的eclipse或者idea中编写spark应用时,有时为了验证程序功能需要以本地模式运行测试。常常会遇到如下的异常:java.io.Exception: Could not locate executable null\bin\winutils.exe in the Hadoop binarie经测试发现这个异常并不影响最终运行结原创 2016-11-25 15:00:52 · 10088 阅读 · 3 评论 -
在java应用中使用JDBC连接Spark SQL(HiveServer2)
根据Spark官网所述,Spark SQL实现了Thrift JDBC/ODBC server:The Thrift JDBC/ODBC server implemented here corresponds to the HiveServer2 in Hive 1.2.1 You can test the JDBC server with the beeline script that co原创 2016-10-07 11:17:40 · 18731 阅读 · 1 评论 -
Hadoop集群安装与配置
本文介绍Hadoop在两个节点上的安装与配置即一个master和一个slave,安装版本为2.2.0,该版本及以上版本的安装方式几乎一致。本文安装的方式并非高可靠的,是最简单的安装,适合于初学者作为学习环境。而且如果需要扩展也十分方便,更改slaves文件即可。原创 2016-03-23 19:41:27 · 1349 阅读 · 0 评论 -
hive(1)centos下的安装与配置
Hive是运行在hadoop的yarn平台之上的数据分析工具,Hive可以将hdfs之上的文本文件映射为一张张数据表,通过sql语句就可以进行数据分析操作。Hive中的解析器会将sql语句mapreduce的job运行。hive大大简化了分布式平台的使用,主要用于离线数据处理。本文介绍hive在centos下的安装和配置。原创 2016-01-12 16:49:02 · 1338 阅读 · 0 评论 -
yarn的基本架构
本文简单介绍了yarn平台的基本架构以及架构中各个组件的功能。原创 2016-05-23 21:08:01 · 912 阅读 · 0 评论 -
spark streaming初试之wordcount
本文来自于spark的官方文档,在运行这个例子的时候遇到了一些问题,解决之后记录下来这个spark streaming的wordcount例子的完整运行过程。算是spark streaming的一次初体验吧。原创 2016-04-26 13:26:33 · 3644 阅读 · 0 评论 -
pregel 与 spark graphX 的 pregel api
本文介绍了谷歌的新“三驾马车”之一的pregel图计算框架,并详解了spark graphX中提供的pregel api。原创 2016-04-20 12:54:17 · 11394 阅读 · 3 评论 -
使用idea构建Spark应用
操作环境:IntelliJ IDEA 14.1.5社区版操作系统:windows7步骤:1、创建工程依次:File->New->Project…勾选Scala点击next,输入工程名点击Finish即可。接下来可能会有一个弹窗(如果你在创建工程的时候已经打开过另一个了),有This Window和New Window选项。选择This Window会将当原创 2016-09-18 22:27:52 · 740 阅读 · 0 评论 -
Spark on yarn 提交应用的方式
Spark on yarn 提交应用的方式通过spark-submit –help可以看到spark-submit的三种用法。Usage: spark-submit [options] [app arguments]2、根据job的id杀死某个job,仅支持在standalone和Mesos模式下使用Usage: spark-submit --kill [submission原创 2016-09-23 11:48:53 · 3172 阅读 · 0 评论 -
spark将数据写入hbase以及从hbase读取数据
本文将介绍1、spark如何利用saveAsHadoopDataset和saveAsNewAPIHadoopDataset将RDD写入hbase2、spark从hbase中读取数据并转化为RDD操作方式为在eclipse本地运行spark连接到远程的hbase。java版本:1.7.0scala版本:2.10.4zookeeper版本:3.4.5(禁用了hbase自带zoo原创 2016-10-15 14:11:25 · 62661 阅读 · 13 评论 -
spark集群安装与配置
本文介绍的是Spark on Yarn的安装与配置,在安装Spark之前需要安装Hadoop2.0以及以上版本,本例是在Hadoop2.2.0平台搭建,集群中有两个节点。原创 2016-03-25 14:16:17 · 3100 阅读 · 2 评论 -
Spark应用远程调试
本文介绍Spark远程调试的基本方法。基于IntelliJ 社区版。原创 2016-04-07 18:43:43 · 8792 阅读 · 0 评论 -
对spark2.3.0中Structured Streaming低延迟持续处理模式的介绍
原文链接:https://databricks.com/blog/2018/03/20/low-latency-continuous-processing-mode-in-structured-streaming-in-apache-spark-2-3-0.html在Spark2.0中,Structured Streaming将微批处理模式与其高级API分离开来。原因有两个:首先,简化了API的使...翻译 2018-03-21 19:44:14 · 5202 阅读 · 2 评论