分布式系统_spark
make_APP
cs领域摸爬滚打
展开
-
对spark中RDD的API的理解
链接:https://www.zybuluo.com/jewes/note/35032对RDD,和RDD中map,reduce等API的理解我的理解如下:RDD:Resilient Distributed Datasets(弹性分布式数据集)把所有数据抽象成RDD,可以看做是一个不连续的数组,这样子就可以分区存了。如scala> val a = sc.paral原创 2016-01-26 10:52:31 · 419 阅读 · 0 评论 -
spark-submit到yarn上遇到的各种坑
spark-submit到yarn上遇到的各种坑1、对于sbt package稍微搬动了code的位置,又要重新下载lib,所以不要移动代码位置。后面没有搬动code,就没重新下载库了,而且每次package速度很快,1秒左右2、175MB大小的文件上传到hdfs一直卡住,思考原因:权限问题?路径问题?磁盘容量问题?后来就上传一个3KB的文件,边上传边googl原创 2016-01-28 22:26:38 · 4847 阅读 · 0 评论 -
编写第一个用scala写的spark任务,用sbt打包成jar,并单机模式下运行
一、编写第一个用scala写的spark应用:仿照spark的 quick-start的Self-Contained Applications写出第一个scala完整程序链接如下:http://spark.apache.org/docs/latest/quick-start.html即:/* SimpleApp.scala */import org.apache.spar原创 2016-01-27 19:54:56 · 6166 阅读 · 0 评论 -
spark使用过程中的问题
我的环境:scala2.10.6Hadoop 2.6.2jdk-8u66-linux-x64spark1.5.2一台master,两台slave 问题1、scala> val textFile =sc.textFile("README.md")报错信息为: error: not found: value scsc为spark cont原创 2016-01-26 11:10:37 · 882 阅读 · 0 评论 -
spark处理大数据的几个实例介绍
在集群中跑应用,而不是在shell中感受写spark应用的过程整个过程为:1、案例分析:要用哪些spark的RDD的API2、编程实现: 用到scala,3、提交到集群执行:如何提交到集群,文件是否先传到HDFS上4、监控执行结果: 通过web可以看到介绍了四个案例:比如 统计1千万个人的平均身高,如果用其他语言,估计要好几小时,因为磁盘读写,要反复计算用了sp原创 2016-01-27 20:32:39 · 7765 阅读 · 0 评论 -
spark-shell的wordcount的例子存档
启动spark-shell后完成的第一示例完成Spark安装并启动后,就可以用Spark API执行数据分析查询了。首先让我们用Spark API运行流行的Word Count示例。如果还没有运行Spark Scala Shell,首先打开一个Scala Shell窗口。这个示例的相关命令如下所示:val txtFile = "README.md"val txtData = s原创 2016-01-27 20:25:53 · 2110 阅读 · 0 评论 -
spark load file的几种方式
spark load file的几种方式:1、直接导入localfile,而不是HDFSsc.textFile("file:///path to the file/")如sc.textFile("file:///home/spark/Desktop/README.md")注意:当设置了HADOOP_CONF_DIR的时候,即配置了集群环境的时候,如果直接sc.textFile(原创 2016-01-27 20:24:02 · 2798 阅读 · 0 评论 -
spark-shell的环境测试
测试spark-shell前提,hdfs有format过(一次就好,format多次了会出现找不到slave的datanode的现象),而且开启了hadoop和spark然后进入spark文件夹,直接bin/spark-shell成功信息,没有error,最后一行是sql context available as sqlcontext测试work count(代码)可以写一个备原创 2016-01-27 19:32:53 · 1012 阅读 · 0 评论 -
给台式机补内存条
今天去给实验室的电脑补了几根内存条,结果有一根内存条插到主板上后,主板始终在滴找到这个链接:http://www.pc841.com/article/20100615-178.html看来一定是内存条冲突的原因了,但现在还有主板不兼容的内存条吗?机子是2010年的原创 2016-01-27 20:11:20 · 767 阅读 · 0 评论 -
安装sbt并用sbt编译第一个应用
安装sbt:安装地址:http://www.scala-sbt.org/download.html直接下载zip包即可我的版本0.13.9等待了10分钟才开始下载一共耗时20分钟具体安装方法:见这个链接http://www.cnblogs.com/wrencai/p/3867898.html然后sbt sbt-version来测试是否安装成功注意,要注意scal原创 2016-01-27 19:41:04 · 2153 阅读 · 0 评论 -
spark的slave上没有datanode 的解决办法
问题描述:通过jps命令 发现 两个slave上都没有datanode,而master上正常找到namenode和datanode各自的VERSION,发现master下的更新日期为1月27,slave下为12月25分别查看master和slave日志发现果然有warn解决办法:1、停止服务,停止spark的和hadoop的,有stop-all.sh2、找到哪台的s原创 2016-01-27 19:30:02 · 5683 阅读 · 0 评论 -
对spark中RDD的理解
update at 2016.1.25RDD作者的论文链接https://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf论文的理解:spark要解决的问题:1、有些数据要多次读写,磁盘速度很慢2、没有交互的界面,不能看到中间结果适用的应用:1、机器学习:多个迭代次运算,逼近(优化问题)。==》是不是原创 2016-01-26 11:35:18 · 656 阅读 · 0 评论 -
spark on yarn 的安装
spark有两种集群模式分别是spark on yarn和standalonespark on yarn:运行在 yarn(Yet Another Resource Negotiator) 资源管理器框架之上,由 yarn 负责资源管理,Spark 负责任务调度和计算。standalone:类似于单机模式我的配置环境:软件环境:Ubuntu原创 2016-01-26 09:38:56 · 648 阅读 · 0 评论 -
Spark快速入门指南
转载地址: http://blog.csdn.net/macyang/article/details/7100523Spark是什么?Spark is a MapReduce-like cluster computing framework designed to support low-latency iterative jobs and interactive use from an转载 2016-04-12 14:00:17 · 576 阅读 · 0 评论