2016年01月_make_APP

原创 spark-submit到yarn上遇到的各种坑

spark-submit到yarn上遇到的各种坑1、对于sbt package稍微搬动了code的位置，又要重新下载lib，所以不要移动代码位置。后面没有搬动code，就没重新下载库了，而且每次package速度很快，1秒左右2、175MB大小的文件上传到hdfs一直卡住，思考原因：权限问题？路径问题？磁盘容量问题？后来就上传一个3KB的文件，边上传边googl

2016-01-28 22:26:38 4816

原创 spark处理大数据的几个实例介绍

在集群中跑应用，而不是在shell中感受写spark应用的过程整个过程为：1、案例分析：要用哪些spark的RDD的API2、编程实现: 用到scala，3、提交到集群执行：如何提交到集群，文件是否先传到HDFS上4、监控执行结果：通过web可以看到介绍了四个案例：比如统计1千万个人的平均身高，如果用其他语言，估计要好几小时，因为磁盘读写，要反复计算用了sp

2016-01-27 20:32:39 7703

原创 spark-shell的wordcount的例子存档

启动spark-shell后完成的第一示例完成Spark安装并启动后，就可以用Spark API执行数据分析查询了。首先让我们用Spark API运行流行的Word Count示例。如果还没有运行Spark Scala Shell，首先打开一个Scala Shell窗口。这个示例的相关命令如下所示：val txtFile = "README.md"val txtData = s

2016-01-27 20:25:53 2095

原创 spark load file的几种方式

spark load file的几种方式：1、直接导入localfile，而不是HDFSsc.textFile("file:///path to the file/")如sc.textFile("file:///home/spark/Desktop/README.md")注意：当设置了HADOOP_CONF_DIR的时候，即配置了集群环境的时候，如果直接sc.textFile(

2016-01-27 20:24:02 2778

原创在使用sudo命令时如何不用输入密码或减少输入的次数？

在使用sudo命令时如何不用输入密码或减少输入的次数？方法1、sudo ./script.sh但要输入第一次的密码方法2、echo password|sudo -S apt-get update-S的意思是，讲密码从standard input中读入特别适合用于脚本。比如服务器的定期更新，当然你也可以直接用sudo用户，不过不安全方法3、In new /etc/

2016-01-27 20:15:07 885

原创给台式机补内存条

今天去给实验室的电脑补了几根内存条，结果有一根内存条插到主板上后，主板始终在滴找到这个链接：http://www.pc841.com/article/20100615-178.html看来一定是内存条冲突的原因了，但现在还有主板不兼容的内存条吗？机子是2010年的

2016-01-27 20:11:20 751

原创编写第一个用scala写的spark任务，用sbt打包成jar，并单机模式下运行

一、编写第一个用scala写的spark应用：仿照spark的 quick-start的Self-Contained Applications写出第一个scala完整程序链接如下：http://spark.apache.org/docs/latest/quick-start.html即：/* SimpleApp.scala */import org.apache.spar

2016-01-27 19:54:56 6114

原创安装sbt并用sbt编译第一个应用

安装sbt：安装地址：http://www.scala-sbt.org/download.html直接下载zip包即可我的版本0.13.9等待了10分钟才开始下载一共耗时20分钟具体安装方法：见这个链接http://www.cnblogs.com/wrencai/p/3867898.html然后sbt sbt-version来测试是否安装成功注意，要注意scal

2016-01-27 19:41:04 2115

原创 spark-shell的环境测试

测试spark-shell前提，hdfs有format过（一次就好，format多次了会出现找不到slave的datanode的现象），而且开启了hadoop和spark然后进入spark文件夹，直接bin/spark-shell成功信息，没有error，最后一行是sql context available as sqlcontext测试work count（代码）可以写一个备

2016-01-27 19:32:53 970

原创 spark的slave上没有datanode 的解决办法

问题描述：通过jps命令发现两个slave上都没有datanode，而master上正常找到namenode和datanode各自的VERSION，发现master下的更新日期为1月27，slave下为12月25分别查看master和slave日志发现果然有warn解决办法：1、停止服务，停止spark的和hadoop的，有stop-all.sh2、找到哪台的s

2016-01-27 19:30:02 5608

原创 ubuntu terminal 配色问题

这两天在看spark的日志，实在受不了terminal的配色，顾找到这个帖子http://www.cnblogs.com/ayseeing/p/3620540.html解决办法是：修改~/.bashrc在最后一行加上PS1='${debian_chroot:+($debian_chroot)}\[\033[01;35;40m\]\u\[\033[00;00;40

2016-01-27 19:22:10 554

原创对hosts文件的理解

hosts文件的一些知识1、如何修改hosts并让它生效位置：/etc/hostshosts的作用：类似于dns服务器，提供IP地址到hostname的对应。但现在网站那么多了，所以一个人电脑的hosts文件存不了那么多hostname，于是出现了dns服务器，于是也就有了dns污染。（直接干掉dns服务器即可：掐断和dns服务器的连接或者返回错误的ip地址）linux根据

2016-01-26 12:19:00 617

原创对spark中RDD的理解

update at 2016.1.25RDD作者的论文链接https://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf论文的理解：spark要解决的问题：1、有些数据要多次读写，磁盘速度很慢2、没有交互的界面，不能看到中间结果适用的应用：1、机器学习：多个迭代次运算，逼近（优化问题）。==》是不是

2016-01-26 11:35:18 634

原创 spark使用过程中的问题

我的环境：scala2.10.6Hadoop 2.6.2jdk-8u66-linux-x64spark1.5.2一台master，两台slave 问题1、scala> val textFile =sc.textFile("README.md")报错信息为： error: not found: value scsc为spark cont

2016-01-26 11:10:37 866

原创 linux环境变量的设置

参考链接：http://www.powerxing.com/linux-environment-variable/全局的环境变量存放的文件有：etc/profile，用户登陆一次，执行一次etc/bashrc,每打开一次shell，执行一次/etc/environment - This file is specifically meant for system-

2016-01-26 11:03:28 714

原创对spark中RDD的API的理解

链接：https://www.zybuluo.com/jewes/note/35032对RDD,和RDD中map，reduce等API的理解我的理解如下：RDD:Resilient Distributed Datasets（弹性分布式数据集）把所有数据抽象成RDD，可以看做是一个不连续的数组，这样子就可以分区存了。如scala> val a = sc.paral

2016-01-26 10:52:31 388

原创 spark on yarn 的安装

spark有两种集群模式分别是spark on yarn和standalonespark on yarn：运行在 yarn（Yet Another Resource Negotiator）资源管理器框架之上，由 yarn 负责资源管理，Spark 负责任务调度和计算。standalone：类似于单机模式我的配置环境：软件环境：Ubuntu

2016-01-26 09:38:56 634

make_APP的博客