Spark
Lee_Sung
这个作者很懒,什么都没留下…
展开
-
Spark+Scala环境搭建
当时上云计算课的时候,搭建的Hadoop+开发IDE及插件+spark的笔记,这里是第二部分Spark+Scala环境搭建。一、 系统环境CentOS 6.5 Jdk 1.8 Hadoop 2.6.0二、下载安装Scala我们默认jdk云云都已经安装配置好了(JDK+Hadoop的安装配置见另一篇文章),只是单纯的安装配置Scala。Scala的安装和配置较为简单。首先,我们选择从官网(http原创 2016-11-03 19:44:23 · 1415 阅读 · 0 评论 -
Scala与MapReduce开发的IDE插件
Scala与MapReduce的开发需要有一个IDE支持才更方便,本文介绍两个Eclipse插件,方便在Eclipse上开发Scala程序和MapReduce程序。一、 系统环境CentOS 6.5 JDK 1.8 Hadoop 2.6.0 Spark 1.6.0 Scala 2.10.4二、 Eclipse的安装我们这里选择的版本是eclipse-java-juno-SR2-linux,即原创 2016-11-03 21:42:01 · 1975 阅读 · 0 评论 -
Hadoop全分布集群搭建(1)——设置主机名与域名解析
Hadoop全分布集群搭建设置主机名与域名解析1各个节点主机名修改2 设置各个节点的域名解析Hadoop全分布集群搭建——设置主机名与域名解析1.1各个节点主机名修改为了方便起见,一般我们需要修改各节点的主机名hostName,这样有助于我们区别该节点电脑的身份。默认安装后所有节点的系统内hostName都是localhost.localdomain。我们将各节点的HostName改为如下方案原创 2017-05-11 16:50:42 · 6649 阅读 · 0 评论 -
Hadoop全分布集群搭建(2)——SSH免密码登陆
Hadoop全分布集群搭建SSH免密码登陆为所有节点设立用户hadoopMaster节点免密登录生成并上传公钥Mster与Slave节点之间免密登录Hadoop全分布集群搭建——SSH免密码登陆紧接着上篇讲,设置完主机名和域名解析之后,hadoop需要通过ssh登陆到各个节点操作,一般情况下,我们为了安全,不会直接用root身份进行hadoop环境搭建,因此设立一个新的用户。按照以下步骤。1原创 2017-05-12 10:23:11 · 1150 阅读 · 0 评论 -
RDD Java API 学习总结
RDD Java API 学习总结简介初始操作1 创建入口对象2 创建RDD数据集RDD操作1 转化操作2 合并操作3 获取RDD数据集中的部分或者全部元素向Spark传递函数1 Function TR2 Function T1T2R3FlatMapFunction TR针对每个元素的转化操作1Map2filter3flatMap集合操作行动操作1 reduce原创 2017-05-07 15:33:33 · 2090 阅读 · 1 评论 -
Spark集群完全分布式安装部署
Spark集群完全分布式安装部署下载安装配置Spark1spark-envsh配置2slaves配置3profile配置复制到其他节点测试总结Spark集群完全分布式安装部署本文中所提到的Spark集群所用的系统环境是Centos6.5,共4个节点,前提是Hadoop、JDK都已经安装配置好了,操作都是在hadoop用户下进行(要保证spark安装目录的所属是hadoop用户,权限也原创 2017-05-18 16:24:32 · 3774 阅读 · 1 评论 -
关于在Spark集群中读取本地文件抛出找不到文件异常的问题
关于在Spark集群中读取本地文件抛出找不到文件异常的问题一般情况下,我们在本地ide里写好程序,打成jar包上传到集群取运行,有时候需要读取数据文件,这个时候需要注意,如果程序中读取的是本地文件,那么,要在所有的节点都有这个数据文件,只在master中有这个数据文件时执行程序时一直报找不到文件解决方式1:让每个Worker节点的相应位置都有要读取的数据文件。解决方式2:直接将数据文件原创 2018-01-22 11:23:05 · 3498 阅读 · 0 评论 -
关于在Spark集群中读取本地文件抛出找不到文件异常的问题
关于在Spark集群中读取本地文件抛出找不到文件异常的问题一般情况下,我们在本地ide里写好程序,打成jar包上传到集群取运行,有时候需要读取数据文件,这个时候需要注意,如果程序中读取的是本地文件,那么,要在所有的节点都有这个数据文件,只在master中有这个数据文件时执行程序时一直报找不到文件解决方式1:让每个Worker节点的相应位置都有要读取的数据文件。解决方式2:直接将数据文件上传到hd原创 2018-01-22 11:23:59 · 1359 阅读 · 0 评论 -
常见hdfs操作
常见的HDFS操作命令Hadoop版本2.6.0,命令均在Hadoop-2.6.0/bin目录下操作1、创建目录命令格式:hadoop fs -mkdir [目录名]Eg.:hadoop fs -mkdir /input #在根目录下建立名为input的目录2、上传文件命令put命令从本地文件系统中复制单个或多个源路径到目标文件系统,也支持从标准输入设备中读取输入并写入目标文件系统。分为本地上传和原创 2018-01-22 14:27:12 · 465 阅读 · 0 评论