- 博客(15)
- 资源 (7)
- 收藏
- 关注
原创 Spark1.6.1单节点环境搭建
本文搭建在Hadoop一、软件准备1. scala-2.11.8.tar.gz2. spark-1.6.1-bin-hadoop2.6.tar.gz二、ssh设置 1. 安装sshapt-get install ssh2. 启动ssh/etc/init.d/ssh start3. ssh-keygen -t rsa -P ""4. cat ~/.ssh/id
2017-08-08 12:12:37 926
原创 Hadoop 2.6.4单节点环境搭建
一、软件准备1.jdk-8u144-linux-x64.tar.gz2.hadoop-2.6.4.tar.gz二、ssh设置 1. apt-get install ssh2. /etc/init.d/ssh start3. ssh-keygen -t rsa -P ""
2017-08-08 11:48:07 390
原创 基于Hadoop的数据序列化与反序列化实例
import java.io.ByteArrayInputStream;import java.io.ByteArrayOutputStream;import java.io.DataInputStream;import java.io.DataOutputStream;import java.io.IOException;import org.apache.hadoop.io.Int
2017-06-12 17:41:39 323
原创 基于Hadoop的数据压缩与解压缩实例
数据压缩测试的输入数据(/input/kmeans/sample.txt)为:1,12,23,3-3,-3-4,-4-5,-5输出结果(/output/compress.gz)为一系列压缩字符串import java.io.IOException;import java.io.InputStream; import java.io.Ou
2017-06-12 09:53:44 392
原创 Call From SparkMaster/192.168.237.128 to 0.0.0.0:10020 failed on connection exception
在Hadoop集群中运行作业报如下错误:17/05/16 21:03:01 INFO client.RMProxy: Connecting to ResourceManager at SparkMaster/192.168.237.128:803217/05/16 21:03:02 INFO mapred.ClientServiceDelegate: Application state
2017-05-17 09:15:34 5920
原创 Linux Shell 计算变量长度的不同方法及不同方法的耗时对比
方法一:(1)计算变量长度(2)所需时间方法二:(1) 计算变量长度(2)所需时间方法三:(1)计算变量长度(2)所需时间结论:一般情况调用外部命令处理,与内置功能操作性能相差较大。在shell编程中,尽量用内置操作或函数完成。
2017-05-16 19:55:21 1133
原创 基于Hadoop2.6.0的Mahout0.12.1的配置与使用
一. Mahout的安装1.下载在http://mirror.bit.edu.cn/apache/mahout/0.12.1/下载地址中下载apache-mahout-distribution-0.12.1.tar.gz2.解压tar -C /opt/Mahout -zxvf mahout-distribution-0.12.1.tar.gz (我将压缩包解压到了/op
2017-05-10 14:57:29 2463
原创 Spark SQL 编程示例
1.创建user.txt文本文件到hdfs (我的路径设置为hdfs://SparkMaster:9001/input/user.txt),查看user.txt2.创建SparkContext上下文‘3.引入相关包4.定义一个case class描述和存储SQL表中的每一行数据 5.加载数据6.注册user的table7.执行age
2017-04-07 16:24:21 497
原创 The server time zone value 'EDT' is unrecognized or represents more than one time zone.
问题:启动hive时出现以下错误:Caused by: java.sql.SQLException: The server time zone value 'EDT' is unrecognized or represents more than one time zone. You must configure either the server or JDBC driver (via
2017-03-13 18:37:38 24032 11
原创 Unable to load native-hadoop library for your platform
问题:在启动spark-shell时或在提交jar包运行程序时出现Unable to load native-hadoop library for your platform...using builtin -Java classes where applicable警告。解决:1.增加环境变量。即在/etc/profile中增加下面的内容:export LD_LIBRARY_PA
2017-03-09 15:55:26 738
原创 Linux shell script遇到unexpected operator错误
解决:因为ubuntu默认的sh是连接到dash的,又因为dash跟bash的不兼容所以出错了.执行时可以把sh换成bash 文件名.sh来执行.
2017-02-20 10:06:56 479
原创 Scala中的模式匹配
1.值匹配(1)示例:(2)注:a)在值匹配中可进行条件判断case _ if data=="Flink" => println("Cool")b)bigData中传入的data变量可在match/case模式匹配中赋值给case后面的变量case data_ if data_ == "Flink" =>println("Cool") //此
2016-11-02 18:58:40 497
原创 Scala中的高阶函数
1.在变量中存放函数def fun1(name:String){println(name)} //定义函数fun1val fun1_v=fun1 _ //将函数赋给一个变量(注意函数名和下划线之间有空格)fun1_v("Spark") //调用这个函数2.匿名函数val fun2=(conte
2016-10-28 11:51:39 946
原创 启动spark-shell后出现not found错误
我曾遇到了类似于这样的问题:error:not found:value sqlContexterror:not found:value sc解决方案:1.查看ifconfig,看ip地址是否和你在/etc/hosts中的ip地址一致,如果不一致,请修改/etc/hosts中的ip地址。2.查看spark-env.sh中配置的SPARK_MASTER_IP是否和ifconfig中
2016-10-09 10:48:37 18683
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人