自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 资源 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 spark-submit到yarn上遇到的各种坑

spark-submit到yarn上遇到的各种坑1、对于sbt package稍微搬动了code的位置,又要重新下载lib,所以不要移动代码位置。后面没有搬动code,就没重新下载库了,而且每次package速度很快,1秒左右2、175MB大小的文件上传到hdfs一直卡住,思考原因:权限问题?路径问题?磁盘容量问题?后来就上传一个3KB的文件,边上传边googl

2016-01-28 22:26:38 4816

原创 spark处理大数据的几个实例介绍

在集群中跑应用,而不是在shell中感受写spark应用的过程整个过程为:1、案例分析:要用哪些spark的RDD的API2、编程实现: 用到scala,3、提交到集群执行:如何提交到集群,文件是否先传到HDFS上4、监控执行结果: 通过web可以看到介绍了四个案例:比如 统计1千万个人的平均身高,如果用其他语言,估计要好几小时,因为磁盘读写,要反复计算用了sp

2016-01-27 20:32:39 7703

原创 spark-shell的wordcount的例子存档

启动spark-shell后完成的第一示例完成Spark安装并启动后,就可以用Spark API执行数据分析查询了。首先让我们用Spark API运行流行的Word Count示例。如果还没有运行Spark Scala Shell,首先打开一个Scala Shell窗口。这个示例的相关命令如下所示:val txtFile = "README.md"val txtData = s

2016-01-27 20:25:53 2095

原创 spark load file的几种方式

spark load file的几种方式:1、直接导入localfile,而不是HDFSsc.textFile("file:///path to the file/")如sc.textFile("file:///home/spark/Desktop/README.md")注意:当设置了HADOOP_CONF_DIR的时候,即配置了集群环境的时候,如果直接sc.textFile(

2016-01-27 20:24:02 2778

原创 在使用sudo命令时如何不用输入密码或减少输入的次数?

在使用sudo命令时如何不用输入密码或减少输入的次数?方法1、sudo ./script.sh但要输入第一次的密码方法2、echo password|sudo -S apt-get update-S的意思是,讲密码从standard input中读入特别适合用于脚本。比如服务器的定期更新,当然你也可以直接用sudo用户,不过不安全方法3、In new /etc/

2016-01-27 20:15:07 885

原创 给台式机补内存条

今天去给实验室的电脑补了几根内存条,结果有一根内存条插到主板上后,主板始终在滴找到这个链接:http://www.pc841.com/article/20100615-178.html看来一定是内存条冲突的原因了,但现在还有主板不兼容的内存条吗?机子是2010年的

2016-01-27 20:11:20 751

原创 编写第一个用scala写的spark任务,用sbt打包成jar,并单机模式下运行

一、编写第一个用scala写的spark应用:仿照spark的 quick-start的Self-Contained Applications写出第一个scala完整程序链接如下:http://spark.apache.org/docs/latest/quick-start.html即:/* SimpleApp.scala */import org.apache.spar

2016-01-27 19:54:56 6114

原创 安装sbt并用sbt编译第一个应用

安装sbt:安装地址:http://www.scala-sbt.org/download.html直接下载zip包即可我的版本0.13.9等待了10分钟才开始下载一共耗时20分钟具体安装方法:见这个链接http://www.cnblogs.com/wrencai/p/3867898.html然后sbt sbt-version来测试是否安装成功注意,要注意scal

2016-01-27 19:41:04 2115

原创 spark-shell的环境测试

测试spark-shell前提,hdfs有format过(一次就好,format多次了会出现找不到slave的datanode的现象),而且开启了hadoop和spark然后进入spark文件夹,直接bin/spark-shell成功信息,没有error,最后一行是sql context available as sqlcontext测试work count(代码)可以写一个备

2016-01-27 19:32:53 970

原创 spark的slave上没有datanode 的解决办法

问题描述:通过jps命令 发现 两个slave上都没有datanode,而master上正常找到namenode和datanode各自的VERSION,发现master下的更新日期为1月27,slave下为12月25分别查看master和slave日志发现果然有warn解决办法:1、停止服务,停止spark的和hadoop的,有stop-all.sh2、找到哪台的s

2016-01-27 19:30:02 5608

原创 ubuntu terminal 配色问题

这两天在看spark的日志,实在受不了terminal的配色,顾找到这个帖子http://www.cnblogs.com/ayseeing/p/3620540.html解决办法是:修改~/.bashrc在最后一行加上PS1='${debian_chroot:+($debian_chroot)}\[\033[01;35;40m\]\u\[\033[00;00;40

2016-01-27 19:22:10 554

原创 对hosts文件的理解

hosts文件的一些知识1、如何修改hosts并让它生效位置:/etc/hostshosts的作用:类似于dns服务器,提供IP地址到hostname的对应。但现在网站那么多了,所以一个人电脑的hosts文件存不了那么多hostname,于是出现了dns服务器,于是也就有了dns污染。(直接干掉dns服务器即可:掐断和dns服务器的连接或者返回错误的ip地址)linux根据

2016-01-26 12:19:00 617

原创 对spark中RDD的理解

update at 2016.1.25RDD作者的论文链接https://www.cs.berkeley.edu/~matei/papers/2012/nsdi_spark.pdf论文的理解:spark要解决的问题:1、有些数据要多次读写,磁盘速度很慢2、没有交互的界面,不能看到中间结果适用的应用:1、机器学习:多个迭代次运算,逼近(优化问题)。==》是不是

2016-01-26 11:35:18 634

原创 spark使用过程中的问题

我的环境:scala2.10.6Hadoop 2.6.2jdk-8u66-linux-x64spark1.5.2一台master,两台slave 问题1、scala> val textFile =sc.textFile("README.md")报错信息为: error: not found: value scsc为spark cont

2016-01-26 11:10:37 866

原创 linux环境变量的设置

参考链接:http://www.powerxing.com/linux-environment-variable/全局的环境变量存放的文件有:etc/profile,用户登陆一次,执行一次etc/bashrc,每打开一次shell,执行一次/etc/environment - This file is specifically meant for system-

2016-01-26 11:03:28 714

原创 对spark中RDD的API的理解

链接:https://www.zybuluo.com/jewes/note/35032对RDD,和RDD中map,reduce等API的理解我的理解如下:RDD:Resilient Distributed Datasets(弹性分布式数据集)把所有数据抽象成RDD,可以看做是一个不连续的数组,这样子就可以分区存了。如scala> val a = sc.paral

2016-01-26 10:52:31 388

原创 spark on yarn 的安装

spark有两种集群模式分别是spark on yarn和standalonespark on yarn:运行在 yarn(Yet Another Resource Negotiator) 资源管理器框架之上,由 yarn 负责资源管理,Spark 负责任务调度和计算。standalone:类似于单机模式我的配置环境:软件环境:Ubuntu

2016-01-26 09:38:56 634

特征算法 (附有c++源码)

内有特征算法,c++写的,也附有 测试图片,可以直接上手测试。

2015-08-29

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除