spark&scala
cq1982
这个作者很懒,什么都没留下…
展开
-
Spark:利用Eclipse构建Spark集成开发环境
前一篇文章“Apache Spark学习:将Spark部署到Hadoop 2.2.0上”介绍了如何使用Maven编译生成可直接运行在Hadoop 2.2.0上的Spark jar包,而本文则在此基础上,介绍如何利用Eclipse构建Spark集成开发环境。(1) 准备工作在正式介绍之前,先要以下软硬件准备:软件准备:Eclipse Juno版本(4.2版本),可以直转载 2015-05-21 10:33:07 · 2209 阅读 · 0 评论 -
Spark Sql和DataFrame指南(部分)
有一个链接sql-programming-guide简单翻译几个要点:Spark SQL is a Spark module for structured data processing. It provides a programming abstraction called DataFrames and can also act as distributed SQL q翻译 2015-05-24 17:48:52 · 15089 阅读 · 0 评论 -
记录一下centos的spark1.3.1版本开发环境
1、下载安装包jdk和scala语言包:jdk-7u79-linux-x64.gzscala-2.10.4.tgzhadoop和spark安装包:hadoop-2.6.0.tar.gzspark-1.3.1-bin-hadoop2.6.tgz还有开发工具安装包:ideaIC-14.1.3.tar.gz2、新建hadoop用原创 2015-05-24 14:28:50 · 2037 阅读 · 0 评论 -
Spark Streaming:大规模流式数据处理的新贵
提到Spark Streaming,我们不得不说一下BDAS(Berkeley Data Analytics Stack),这个伯克利大学提出的关于数据分析的软件栈。从它的视角来看,目前的大数据处理可以分为如以下三个类型。 复杂的批量数据处理(batch data processing),通常的时间跨度在数十分钟到数小时之间。基于历史数据的交互式查询(interactive query转载 2015-05-21 16:26:44 · 739 阅读 · 0 评论 -
Spark新年福音:一个用于大规模数据科学的API——DataFrame
文章翻译自Introducing DataFrames in Spark for Large Scale Data Science,作者Reynold Xin(辛湜,@hashjoin),Michael Armbrust,Davies Liu。以下为译文今天,我们正式宣布Spark新的API——DataFrame 。作为2014–2015年Spark最大的API改动,DataF转载 2015-05-21 15:27:55 · 800 阅读 · 0 评论 -
Spark SQL 初探: 使用大数据分析2000万数据
去年网上曾放出个2000W的开房记录的数据库, 不知真假。 最近在学习Spark, 所以特意从网上找来数据测试一下, 这是一个绝佳的大数据素材。 如果数据涉及到个人隐私,请尽快删除, 本站不提供此类数据。你可以写个随机程序生成2000W的测试数据, 以CSV格式。Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于转载 2015-05-21 16:37:03 · 4355 阅读 · 1 评论 -
Spark Streaming小结
概述Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强这两个特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:map、reduce、join、windo转载 2015-05-21 16:30:41 · 5169 阅读 · 0 评论 -
Apache Spark1.1.0部署与开发环境搭建 - Mark Lin
Spark是Apache公司推出的一种基于Hadoop Distributed File System(HDFS)的并行计算架构。与MapReduce不同,Spark并不局限于编写map和reduce两个方法,其提供了更为强大的内存计算(in-memory computing)模型,使得用户可以通过编程将数据读取到集群的内存当中,并且可以方便用户快速地重复查询,非常适合用于实现机器学习算法。本文将转载 2015-05-21 16:53:43 · 737 阅读 · 0 评论 -
为Java程序员编写的Scala的入门教程
本文是《A Scala Tutorial for Java programmers》英文的翻译,英文版地址A Scala Tutorial for Java programmers。是Michel Schinz和Philipp Haller编写,由Bearice成中文,dongfengyee(东风雨)整理.一、简介二、 第一个Scala例子三、Scala与Java交互四转载 2015-05-21 15:21:10 · 3660 阅读 · 0 评论 -
Spark Streaming编程指南(部分)
Spark Streaming is an extension of the core Spark API that enables scalable, high-throughput,fault-tolerant stream processing of live data streams. Data can be ingested from many sources like Kafka, F翻译 2015-05-24 13:32:48 · 766 阅读 · 0 评论