Spark
huanbia
这个作者很懒,什么都没留下…
展开
-
解决spark-shell输出日志信息过多
当我们执行spark-shell的时候,会出现如下界面,如果觉得显示信息过多可通过修改conf文件夹下的log4j.properties文件让其只显示警告信息,而不显示所有的信息。 解决方案1进入到spark目录/conf文件夹下,此时有一个log4j.properties.template文件,我们执行如下命令将其拷贝一份为log4j.properties,并对log4j.properti原创 2016-05-04 16:17:12 · 14409 阅读 · 0 评论 -
CentOS 6.5 安装R语言3.2.2
从地址(https://cran.r-project.org/src/base/R-3/)下载R语言的tar包我下载的是:https://cran.r-project.org/src/base/R-3/R-3.2.2.tar.gz然后安装相关依赖包: #yum install gcc-gfortran #yum install gcc gcc-c++转载 2017-06-22 20:18:37 · 1165 阅读 · 0 评论 -
spark中sortByKey后存储为单个文件
需求:最近需要统计hbase中某个表行健的长度,最终按照行健长度排序,提取出数据样式如下,rowkey和长度按照“,”分割: rowkey 长度 http:http://www.ccps.gov.cn/ 28 http:http://www.ccps.gov.cn/ 28 1.23.168.192:http/ 18 1.23.168.192:http/ 18原创 2017-05-10 10:55:28 · 1193 阅读 · 0 评论 -
idea change scala version
File | Other Settings | Default Project Structure | Global Librariesclick ‘+’ button at the top left hand of the window select ‘Scala SDK’ add or update the version you want原创 2017-05-06 10:09:03 · 1297 阅读 · 0 评论 -
Hadoop默认端口表及用途
端口 用途 9000 fs.defaultFS,如:hdfs://172.25.40.171:9000 9001 dfs.namenode.rpc-address,DataNode会连接这个端口 50070 dfs.namenode.http-address 50470 dfs.namenode.https-address 50100 dfs.namenod原创 2017-04-14 11:01:12 · 7030 阅读 · 0 评论 -
Idea基于scala语言构建spark开发环境搭建
需要文件 intellij idea需要安装scala 本实验使用的是spark-1.6.1 将spark文件夹下的lib目录下的spark-assembly-1.6.1-hadoop2.6.0.jar拷出作为备用创建spark项目选择File->New->Project 点击Next,输入项目名称,本实验中使用的项目名称为:ScalaWordCount 点击Fini原创 2017-04-04 22:28:14 · 1064 阅读 · 0 评论 -
Idea基于maven,java语言的spark环境搭建
环境介绍:IntelliJ IDEA开发软件,hadoop01-hadoop04的集群(如果不进行spark集群测试可不安装)准备工作首先在集群中的hdfs中添加a.txt文件,将来需在项目中进行单词统计 构建Maven项目点击File->New->Project… 点击Next,其中GroupId和ArtifactId可随意命名 点击Next 点击Finish,出现如下界面:原创 2017-04-04 16:48:48 · 7652 阅读 · 2 评论 -
解决java.net.UnknownHostException: 主机名: 主机名: 未知的名称或服务
问题场景:使用maven调试构建spark开发环境,于本地执行spark程序,报java.net.UnknownHostException:主机名:主机名:未知的名称或服务错误 解决方式: 修改本地的hosts文件,添加[127.0.0.1 主机名]的映射,比如我的主机名为HaSpark,如下图所示: 修改etc/hosts文件前后对比如下: 修改前: 修改后: 最终运原创 2017-04-04 09:52:09 · 78143 阅读 · 3 评论 -
spark下跑python程序
本次实验是搭有spark环境的linux下跑的,spark版本为1.6.1,相当于在在spark本地执行,spark文件放在/opt/moudles/spark-1.6.1/(代码中会看到)编写python测试程序#test.py文件# -*- coding:utf-8 -*-import osimport sys#配置环境变量并导入pysparkos.environ['SPARK_HO原创 2017-01-19 10:36:41 · 6725 阅读 · 0 评论 -
RDD之aggregate
定义定义可参考RDD的API aggregate[U](zeroValue: U)(seqOp: (U, T) ⇒ U, combOp: (U, U) ⇒ U)(implicit arg0: ClassTag[U]): U Aggregate the elements of each partition, and then the results for all the partition原创 2016-05-17 15:59:57 · 2031 阅读 · 0 评论 -
解决windows下scala安装\scala\bin\scala.bat)错误
问题描述当在安装完scala后,如果安装目录中有空格则会报如下错误 \scala\bin\scala.bat)问题主要出在安装目录有空格上,比如我的安装目录为 D:\Program Files (x86)\scala解决方案重新安装scala到没有空格的目录 比如我的改为 D:\scala原创 2016-05-17 09:26:48 · 2725 阅读 · 0 评论 -
RDD之flatMap与Map对比
定义首先我们列出flatMap与Map的定义,可参考RDD API def map[U](f: (T) ⇒ U)(implicit arg0: ClassTag[U]): RDD[U] Return a new RDD by applying a function to all elements of this RDD. def flatMap[U](f: (T) ⇒ Trave原创 2016-05-16 15:24:00 · 6968 阅读 · 4 评论 -
解决SecureCRT下spark-shell中scala无法删除问题
问题描述 当使用SecureCRT来打开spark-shell的时候,有时会出现如下问题,当输错的时候想要按Backspace(退格键)或“Delete(删除键)”的时候,无法删除前面删除的内容。 解决方法问题主要出现在我们的SecureCRT上,我们只需要将会话选项中的仿真终端改成Linux即可 可以此点击: 菜单栏>选项>会话选项>终端>仿真>终端 最终效果原创 2016-05-04 21:24:30 · 3666 阅读 · 0 评论 -
Executor updated: app-20181031153851-0007/1 is now EXITED (Command exited with code 1)
最近在尝试通过python和java在本地远程调用spark,具体如何用java远程调用spark,可参考我另一篇博客:Idea基于maven,java语言的spark环境搭建实验环境client集群centos单机4个hadoop节点集群 ,ip分别为192.168.20.[61,62,63,64],61为主节点问题描述代码其实比较简单,java代码如下,主...原创 2018-10-31 16:46:23 · 2178 阅读 · 2 评论