spark
文章平均质量分 52
JamesFen
这个作者很懒,什么都没留下…
展开
-
Kafka单机安装
前提条件:安装zookeeper,见下文 http://blog.csdn.net/jameshadoop/article/details/49621709 环境: centos 6.5 x64 kafka_2.9.2-0.8.1.11.解压tar -xzf kafka_2.9.2-0.8.1.1.tgz2.启动2.1要先启动zookeeper bin/zookeeper-server-s原创 2015-11-04 00:24:21 · 869 阅读 · 0 评论 -
build.sbt
一个简单的build.sbt文件内容如下:name := "hello" // 项目名称organization := "xxx.xxx.xxx" // 组织名称version := "0.0.1-SNAPSHOT" // 版本号scalaVersion := "2.9.2" // 使用的Scala版本号// 其它build定义其中, name和ve转载 2016-08-24 21:48:15 · 6082 阅读 · 0 评论 -
IntelliJ IDEA开发Spark、打JAR包
清明假期折腾了两天,总结了两种方式使用IDE进行spark程序,记录一下:第一种方法比较简单,两种方式都是采用SBT进行编译的。注意:本地不需要安装Scala程序,否则在编译程序时有版本兼容性问题。一、基于Non-SBT方式创建一个Scala IDEA工程我们使用Non-SBT的方式,点击“Next”命名工程,转载 2016-08-24 23:29:23 · 16998 阅读 · 0 评论 -
IntelliJ Idea开发spark程序及运行
版本:spark-1.6.01.利用创建一个SBT项目参考步骤:http://blog.csdn.net/jameshadoop/article/details/522992502.编写简单代码package com.james.scala/* SimpleApp.scala */import org.apache.spark.SparkContextimport org.apache.spa原创 2016-08-25 11:48:41 · 5898 阅读 · 0 评论 -
SparkSQL 入门操作
1.前提 启动hadoop,spark 2.进入saprk-shellbin/spark-shell --master spark://c1:7077 --executor-memory 2g3.SQL操作文本文件customers.txt中的内容如下:100, John Smith, Austin, TX, 78727200, Joe Johnson, Dallas, TX, 7520原创 2016-09-05 17:25:19 · 2551 阅读 · 0 评论 -
Spark之RDD编程
RDD,全称Resilient Distributed Datasets(弹性分布式数据集),是Spark最为核心的概念,是Spark对数据的抽象。RDD是分布式的元素集合,每个RDD只支持读操作,且每个RDD都被分为多个分区存储到集群的不同节点上。除此之外,RDD还允许用户显示的指定数据存储到内存和磁盘中,掌握了RDD编程是SPARK开发的第一步。1.RDD读取数据文件读取scala> v原创 2016-08-28 23:56:32 · 2295 阅读 · 0 评论 -
actor中!(tell)与forward的区别
! 的源码:def !(message: Any)(implicit sender: ActorRef = Actor.noSender): Unittell 的源码:final def tell(msg: Any, sender: ActorRef): Unit = this.!(msg)(sender)forward 的源码:def转载 2016-12-06 16:00:33 · 923 阅读 · 0 评论 -
Spark-2.0 搭建源码阅读环境
下载:https://github.com/apache/spark.git 导入IDEA,file–open–选中根目录pom.xml,勾选自己所需要的模块与配置1. 导入后,在根目录pom.xml文件中注释掉一行,如下所示: <dependency> <groupId>com.google.guava</groupId> <artifactId>gua原创 2016-12-26 15:20:47 · 1911 阅读 · 0 评论 -
scala 模式匹配之Type、Array、List和Tuple
package com.yy.base /** * Scala 模式匹配 * Type Array List Tuple */ object PatternMatchMore extends App { println("-----Type模式匹配------") def typeMatch(t:Any) = t match{ case c:I原创 2017-02-16 14:23:49 · 536 阅读 · 0 评论 -
Idea使用系统自带的sbt,并自定义repositories
最近在使用Idea + Scala + sbt (Macbook)做一些开发测试,但是由于默认使用国外的源,导致下载速度奇慢无比,所以想修改默认的repositories,但是怎么样才能修改默认的repositories并在Idea中使用修改后的配置呢?经过一天的折腾,总算是知道怎么新修改了,故在此备忘,也希望能帮助一些同学少走弯路。 在这一篇博客:http://blog.csdn.n翻译 2016-08-23 23:56:14 · 18741 阅读 · 1 评论 -
IntelliJ IDEA创建 SBT项目
使用intellij idea建立sbt工程上面方法是技术控的同学用的,请注意,还有更简便的方法 其实简单想一下便可知,作为IDE,它是能建立工程的,要是只能用来打开工程那也显得太鸡肋了吧。 建立方式: file -> new -> project -> Scala-> SBT 选择jdk SBT scala版本,下面的复选框可以默认原创 2016-08-24 12:08:25 · 9280 阅读 · 0 评论 -
scala 隐式详解(implicit关键字)
掌握implicit的用法是阅读spark源码的基础,也是学习scala其它的开源框架的关键,implicit 可分为:隐式参数隐式转换类型隐式调用函数1.隐式参数当我们在定义方法时,可以把最后一个参数列表标记为implicit,表示该组参数是隐式参数。一个方法只会有一个隐式参数列表,置于方法的最后一个参数列表。如果方法有多个隐式参数,只需一个implicit修饰即可。 当调用包含隐式参数的原创 2016-08-27 23:34:06 · 24794 阅读 · 2 评论 -
spark中flatmap和map的区别
以前总是分不清楚spark中flatmap和map的区别,现在弄明白了,总结分享给大家,先看看flatmap和map的定义。map()是将函数用于RDD中的每个元素,将返回值构成新的RDD。flatmap()是将函数应用于RDD中的每个元素,将返回的迭代器的所有内容构成新的RDD有些拗口,看看例子就明白了。val rdd = sc.parallelize(List("coffee panda","h翻译 2016-08-28 23:16:47 · 3354 阅读 · 1 评论 -
细数Scala下划线“_”的用法
第一:初始化的时候。object Sample { var name:String=_ def main (args: Array[String]){ name="hello world" println(name) }在这里,name也可以声明为null,例:var name:String=null。这里的下划线和null的作用是一样的。转载 2016-08-30 12:07:12 · 493 阅读 · 0 评论 -
transformation and action of spark
转换(transformation)下面的列表列出了一些通用的转换。 请参考 RDD API doc (Scala, Java, Python) 和 pair RDD functions doc (Scala, Java) 了解细节. 转换含义map(func)返回一个新分布式数据集,由每一个输入元素经过func函数转换后组成原创 2016-08-30 15:58:07 · 412 阅读 · 0 评论 -
Spark 分布式安装
环境: spark1.6.0,scala-2.11.0,hadoop-2.6.4 centos x64,三节点 192.168.58.11 c1 #master 192.168.58.12 c2 #slave 192.168.58.13 c3 #slave1.前提:安装JDK,安装hadoop,有安装hadoop 分布式集群的能力2.安装Scala下载:sc原创 2016-08-19 17:10:45 · 726 阅读 · 0 评论 -
Spark 简单入门
#used for mycat cache service conffactory.encache=org.opencloudb.cache.impl.EnchachePooFactory#key is pool name ,value is type,max size, expire secondspool.SQLRouteCache=encache,10000,1800pool.ER_转载 2016-08-19 15:57:58 · 4355 阅读 · 0 评论 -
spark streaming三种应用场景
Spark Streaming共有三种运用场景,分为:无状态操作、状态操作、window操作。下面分别描述下本人对这三种运用场景的理解。1、无状态操作 只关注当前新生成的小批次数据,所有计算都只是基于这个批次的数据进行处理。 一个批次的数据,我们将这个批次的时间假设得长一些,比如说一天。这样的话,一个批次就是在一天时间内生成的数据,可以理解为原创 2016-09-08 00:12:01 · 8737 阅读 · 0 评论 -
SBT 安装 for windows
1.下载http://www.scala-sbt.org/download.html 解压: sbt-0.13.12.zip2.添加环境变量SBT_HOME=D:\JavaDev\sbt path=……;%SBT_HOME%\bin;3.配置本地仓库编辑:conf/sbtconfig.txt# Set the java args to high-Xmx512M-XX:MaxPermSize原创 2016-08-23 23:31:41 · 7050 阅读 · 1 评论 -
Scala学习——泛型[T]的6种使用
package com.dtspark.scala.basics/** * 1,scala的类和方法、函数都可以是泛型。 * * 2,关于对类型边界的限定分为上边界和下边界(对类进行限制) * 上边界:表达了泛型的类型必须是"某种类型"或某种类型的"子类",语法为“<:”, * 下边界:表达了泛型的类型必须是"某种类型"或某种类型的"父类",语法为“>:”, * * 3, "<%" :原创 2017-02-21 17:32:17 · 10312 阅读 · 0 评论