Scala
马超的博客
Stay Hungry, Stay Foolish
展开
-
董西城问答整理:第三课
一、spark加载hadoop本地库的时候出现不能加载的情况,这是什么原因导致的呢? 我64位机器,当时hadoop启动的时候出现不能加载本地类库的这个问题是因为hadoop本身自带的本地库是32位的,编译完hadoop源码后我替换了hadoop-3.0.0本地库为64位的。 解决办法–spark加载hadoop本地库的时候出现不能加载的情况。 vim /etc/profile export原创 2016-10-20 15:49:37 · 542 阅读 · 0 评论 -
Spark程序设计——Scala
1.Java JVM的高层次语言 面向对象+函数式编程 2.静态类型 性能与Java差不多 通常不需要显式写出类型(类型推断机制) 3.与Java结合完好 可直接使用任意Java类,可继承自Java类,也可从Java代码中调用Scala代码。 定义变量:var x:Int=7var x=7 //类型推断val y="hi" //只读函数:def square(x:Int):Int=原创 2016-10-16 20:01:12 · 310 阅读 · 0 评论 -
Spark程序设计——应用(wordcount、join)
wordcountval lines=sc.textFile("hamlet.txt")//映射成RDDval counts=lines.flatMap(lin=>line.split(" "))//按空格进行分词 .map(word=>(word,1))//Key/value映射 .reduceByKey(_+_)//归约,把key相同的value归约重点在于理解并行化 join原创 2016-10-16 23:35:12 · 402 阅读 · 0 评论 -
Spark程序设计——accumulator、广播变量、cache
(一)accumulator(累加器、计数器) 类似于MapReduce中的counter,将数据从一个节点发送到其他各个节点上去。 通常用于监控,调试,记录符合某类特征的数据数目等。 –分布式counter Accumulator使用import SparkContext._val total_counter=sc.accumulator(OL,"total_counter")//第一个原创 2016-10-17 15:38:10 · 901 阅读 · 0 评论 -
构建集成开发环境Apache Spark
推荐使用Intellij IDEA(eclipse也可以) 基本流程 –安装JDK1.7 –下载Inleilij IDEA,打开后,安装scala插件 –在Intellij IDEA中创建scala工程,导入spark-hadoop包 –编写spark程序 参考文章:http://dongxicheng.org/framework-on-yarn/apache-spark-intell原创 2016-10-17 16:06:19 · 513 阅读 · 0 评论 -
Spark编程实例
【实例一】 分布式估算pi 假设正方形边长为x,则正方形面积为:x*x,圆的面积为:pi*(x/2)*(x/2),两者之比为:4/pi 随机产生位于正方形内的点x个,假设位于园中的有y个,则:pi=4*y/x 当x->无群大时,pi逼近真实值 object SparkPi{ //不要用继承,会有各种麻烦 def main(args:Array[String]){ //常规spa原创 2016-10-17 17:55:58 · 1625 阅读 · 1 评论 -
使用maven构建项目生成特定的目录结构
假设已经安装maven软件(系统CentOS 6.5)创建一个空的Scala Project,项目名称wordcount,包名为org.training.spark (maven)mvn archetype:generate \ -DarchetypeGroupId=org.scala-tools.archetypes \ -DarchetypeArtifactId=scala-ar原创 2016-10-18 19:22:22 · 891 阅读 · 0 评论