Spark
文章平均质量分 74
内存计算
Janvn
这个作者很懒,什么都没留下…
展开
-
CNCC 2016 | 南京大学黄宜华教授 50 张 PPT 剖析 Alluxio 及其应用
Alluxio 简介Alluxio(之前名为 Tachyon)是世界上第一个以内存为中心的虚拟的分布式存储系统。它统一了数据访问的方式,为上层计算框架和底层存储系统构建了桥梁。 应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据。此外,Alluxio的以内存为中心的架构使得数据的访问速度能比现有常规方案快几个数量级。在大数据生态系统中,Alluxio 介转载 2017-01-09 20:27:37 · 1793 阅读 · 0 评论 -
快速开始使用Spark和Alluxio
摘要: Spark在大数据处理领域正获得快速增长,其核心的RDD极大地提升了处理性能并且支持迭代运算。目前Spark DataFrame和Spark SQL更加成熟,而作为普通文件存储方案的Tachyon升级成为Alluxio,在成熟度和性能上都得到了进一步的提升,方便非结构化的文件处理,如影像、视频文件等,这里介绍其特性和使用方法。原文[英]:http://www.alluxio.c转载 2016-12-26 14:12:13 · 4685 阅读 · 0 评论 -
Alluxio简单介绍
Alluxio 原名 tachyon。Alluxio 是一个高容错的分布式文件系统,允许文件以内存的速度在集群框架中进行可靠的共享,类似Spark和 MapReduce。通过利用lineage信息,积极地使用内存,Alluxio的吞吐量要比HDFS高300多倍。Alluxio都是在内存中处理缓存文件,并且让不同的 Jobs/Queries以及框架都能内存的速度来访问缓存文件。特性:转载 2016-12-26 14:09:58 · 17765 阅读 · 0 评论 -
了解Apache Spark故障和瓶颈(预览)
译自:https://dzone.com/refcardz/understanding-apache-spark-failures-and-bottleneck?chapter=2(written by Rishitesh Mishra Principal Engineer Unravel Data)翻译:by Janvn in Aug.18.2019前言:当一切按计划进行...翻译 2019-08-18 11:33:09 · 239 阅读 · 0 评论 -
Spark函数传递:闭包和单例模式
闭包例子在Spark的集群模式中,每一个Spark应用由负责运行用户的main函数的driver program和并行运行在集群中的工作进程组成。主要的抽象数据结构是RDD,可以在集群中并行的被操作,其主要提供了两个操作:transformations以及actions。这些都是Spark的基本内容,稍微提及一下,由以下一个小例子引入正题:[java] view p转载 2017-02-24 17:16:54 · 739 阅读 · 0 评论 -
Spark性能优化指南——基础篇
前言在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速转载 2017-02-07 10:58:24 · 321 阅读 · 0 评论 -
Spark性能优化指南——高级篇
前言继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优调优概述有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时Spark作业的性能会比期望差很多。数据倾斜调优,就是使用各种技术方案解决不同类型的数据转载 2017-02-08 11:07:54 · 539 阅读 · 0 评论 -
关于所使用的spark版本中的spark sql不支持exists和in等子查询语句的解决方案记录
stackoverflow上一篇很好的问题解答解决方法:SparkSQL doesn't currently have EXISTS & IN. "(Latest) Spark SQL / DataFrames and Datasets Guide / Supported Hive Features"EXISTS & IN can always be rewritt原创 2017-01-07 09:21:57 · 14196 阅读 · 0 评论 -
看spark示例代码如何求的PI
以前也知道蒙特卡洛投针求PI,今天安装spark,安完先要试试他自带的几个小程序看看能不能用,我主要会用python写程序,也就是pyspark所以在spark里的examples目录深处找python的文件夹,里面的pi.py就是。看了一下源码是这样的:import sys from random import random from operator impor转载 2016-09-24 09:46:06 · 1631 阅读 · 0 评论 -
spark1.6.2 快速入门
官方文档:http://spark.apache.org/docs/latest/quick-start.htmlQuick StartInteractive Analysis with the Spark ShellBasicsMore on RDD OperationsCachingSelf-Contained ApplicationsWhere t转载 2016-07-01 15:02:56 · 878 阅读 · 0 评论 -
Spark中加载本地(或者hdfs)文件以及SparkContext实例的textFile使用
默认是从hdfs读取文件,也可以指定sc.textFile("路径").在路径前面加上hdfs://表示从hdfs文件系统上读 本地文件读取 sc.textFile("路径").在路径前面加上file:// 表示从本地文件系统读,如file:///home/user/spark/README.md网上很多例子,包括官网的例子,都是用textFile来加载一个文件创建转载 2016-06-30 10:38:03 · 2557 阅读 · 0 评论