spark
罗白莲
这个作者很懒,什么都没留下…
展开
-
Hive on Spark & Tachyon解析
http://www.csdn.net/article/2015-04-01/2824369 在2015年3月14日的上海Spark Meetup第三次聚会上,Cloudera公司副总裁苗凯翔在开场发言中首先回忆了Hadoop的由来。苗凯翔:Hadoop & SparkCloudera公司副总裁 苗凯翔Hadoop由Doug Cutting根据Google论转载 2015-04-02 11:18:14 · 887 阅读 · 0 评论 -
spark连接mongodb
hadoop和mongodb的连接器org.mongodb.mongo-hadoopmongo-hadoop-core1.4.2java连接mongodb连接器org.mongodbmongo-java-driver2.13.02.使用示例import com.mongodb.hadoop.MongoOutputFormat;im原创 2016-02-19 18:24:31 · 7545 阅读 · 3 评论 -
scala符号
Scala是数据挖掘算法领域最有力的编程语言之一,语言本身是面向函数,这也符合了数据挖掘算法的常用场景:在原始数据集上应用一系列的变换,语言本身也对集合操作提供了众多强大的函数,本文将以List类型为例子,介绍常见的集合变换操作。一、常用操作符(操作符其实也是函数)++ ++[B](that: GenTraversableOnce[B]): List[B] 从列表的尾部添加另外一个转载 2016-03-01 15:06:05 · 507 阅读 · 0 评论 -
SparkSQL简介
1、SparkSQL的发展历程1.1 Hive and SharkSparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具,Hive应运而生,它是当时唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hado转载 2015-12-26 20:06:19 · 1107 阅读 · 0 评论 -
基于Cloudera Manager 5和CDH5(版本5.3.3)的Hadoop集群安装
一、Cloudera Manager/CDH51、关于cloudera manager和CDH是什么,这里不做详细介绍了。有官网和百科介绍。附上官网地址:cloudera manager2、官网的安装指南官方文档提供了三种安装方式:在线自动安装/手动安装包安装/手动使用cloudera manager管理安装此处使用第三种方式安装Hadoop集群。二、环境规划1转载 2015-12-27 15:01:44 · 616 阅读 · 0 评论 -
一共81个,开源大数据处理工具汇总(上)
本文一共分为上下两部分。我们将针对大数据开源工具不同的用处来进行分类,并且附上了官网和部分下载链接,希望能给做大数据的朋友做个参考。下面是第一部分。查询引擎一、Phoenix贡献者::Salesforce简介:这是一个Java中间层,可以让开发者在Apache HBase上执行SQL查询。Phoenix完全使用Java编写,代码位于GitHub上,并且提供了一个客户端可转载 2015-12-27 14:03:42 · 5944 阅读 · 1 评论 -
一共81个,开源大数据处理工具汇总
接上一部分:一共81个,开源大数据处理工具汇总(上),第二部分主要收集整理的内容主要有日志收集系统、消息系统、分布式服务、集群管理、RPC、基础设施、搜索引擎、Iaas和监控管理等大数据开源工具。日志收集系统一、Facebook Scribe贡献者:Facebook简介:Scribe是Facebook开源的日志收集系统,在Facebook内部已经得到大量的应用。它能转载 2015-12-27 14:01:45 · 8725 阅读 · 0 评论 -
Spark on Yarn遇到的几个问题
1 概述 Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yarn logs命令实现。 在部署和运行Spark Application的过程中,如果不注意一些小的细节,也许会导致一些问题的出现。2 防火墙 部署好Spark的包转载 2015-12-27 12:51:34 · 1423 阅读 · 0 评论 -
数组
一、数组1、定长数组声明数组的两种形式:声明指定长度的数组 val 数组名= new Array[类型](数组长度) 提供数组初始值的数组,无需new关键字 Scala声明数组时,需要带有Array类名,且使用 () 来指明长度或提供初始值序列。在JVM中,Scala的Array以Java数组的方式实现。如arr在JVM中的类型对转载 2016-01-05 22:30:52 · 921 阅读 · 0 评论 -
通过腾讯shuffle部署对shuffle过程进行详解
Shuffle过程介绍MapReduce的Shuffle过程介绍Spill过程SortSpillMergeCopyMerge SortSpark的Shuffle过程介绍Shuffle WriterShuffle FetcherMapReduce和Spark的Shuffle过程对比Shuffle后续优化方向MapReduce Shuffle后续优化方向Spark Shuffle后续优化方转载 2015-12-30 13:34:05 · 1211 阅读 · 0 评论 -
详细探究Spark的shuffle实现
Background在MapReduce框架中,shuffle是连接Map和Reduce之间的桥梁,Map的输出要用到Reduce中必须经过shuffle这个环节,shuffle的性能高低直接影响了整个程序的性能和吞吐量。Spark作为MapReduce框架的一种实现,自然也实现了shuffle的逻辑,本文就深入研究Spark的shuffle是如何实现的,有什么优缺点,与Hadoop转载 2015-12-30 13:27:34 · 406 阅读 · 0 评论 -
SparkContext
Spark的开发者都知道SparkContext是编写Spark程序用到的第一个类,足以说明SparkContext的重要性;SparkContext为Spark的主要入口点,简明扼要,如把Spark集群当作服务端那Spark Driver就是客户端,SparkContext则是客户端的核心;如注释所说 SparkContext用于连接Spark集群、创建RDD、累加器(accumlator)、广原创 2017-04-08 23:30:00 · 3113 阅读 · 0 评论