可达达-CSDN博客

转载 Win7下使用U盘安装Ubuntu16.04双系统图文教程

2018-01-10 16:03:18 2230

原创 Spark1.6.1单节点环境搭建

本文搭建在Hadoop 一、软件准备 1. scala-2.11.8.tar.gz 2. spark-1.6.1-bin-hadoop2.6.tar.gz 二、ssh设置 1. 安装ssh apt-get install ssh 2. 启动ssh /etc/init.d/ssh start 3. ssh-keygen -t rsa -P "" 4. cat ~/.ssh/id

2017-08-08 12:12:37 960

原创 Hadoop 2.6.4单节点环境搭建

一、软件准备 1.jdk-8u144-linux-x64.tar.gz 2.hadoop-2.6.4.tar.gz 二、ssh设置 1. apt-get install ssh 2. /etc/init.d/ssh start 3. ssh-keygen -t rsa -P ""

2017-08-08 11:48:07 428

原创基于Hadoop的数据序列化与反序列化实例

import java.io.ByteArrayInputStream; import java.io.ByteArrayOutputStream; import java.io.DataInputStream; import java.io.DataOutputStream; import java.io.IOException; import org.apache.hadoop.io.Int

2017-06-12 17:41:39 354

原创基于Hadoop的数据压缩与解压缩实例

数据压缩测试的输入数据（/input/kmeans/sample.txt）为： 1,1 2,2 3,3 -3,-3 -4,-4 -5,-5 输出结果（/output/compress.gz）为一系列压缩字符串 import java.io.IOException; import java.io.InputStream; import java.io.Ou

2017-06-12 09:53:44 414

原创 Call From SparkMaster/192.168.237.128 to 0.0.0.0:10020 failed on connection exception

在Hadoop集群中运行作业报如下错误： 17/05/16 21:03:01 INFO client.RMProxy: Connecting to ResourceManager at SparkMaster/192.168.237.128:8032 17/05/16 21:03:02 INFO mapred.ClientServiceDelegate: Application state

2017-05-17 09:15:34 5977

原创 Linux Shell 计算变量长度的不同方法及不同方法的耗时对比

方法一：（1）计算变量长度（2）所需时间方法二：（1）计算变量长度（2）所需时间方法三：（1）计算变量长度（2）所需时间结论：一般情况调用外部命令处理，与内置功能操作性能相差较大。在shell编程中，尽量用内置操作或函数完成。

2017-05-16 19:55:21 1166

原创基于Hadoop2.6.0的Mahout0.12.1的配置与使用

一. Mahout的安装 1.下载在http://mirror.bit.edu.cn/apache/mahout/0.12.1/下载地址中下载apache-mahout-distribution-0.12.1.tar.gz 2.解压 tar -C /opt/Mahout -zxvf mahout-distribution-0.12.1.tar.gz (我将压缩包解压到了/op

2017-05-10 14:57:29 2504

原创 Spark SQL 编程示例

1.创建user.txt文本文件到hdfs (我的路径设置为hdfs://SparkMaster:9001/input/user.txt)，查看user.txt 2.创建SparkContext上下文 ‘ 3.引入相关包 4.定义一个case class描述和存储SQL表中的每一行数据 5.加载数据 6.注册user的table 7.执行age

2017-04-07 16:24:21 527

原创 The server time zone value 'EDT' is unrecognized or represents more than one time zone.

问题：启动hive时出现以下错误： Caused by: java.sql.SQLException: The server time zone value 'EDT' is unrecognized or represents more than one time zone. You must configure either the server or JDBC driver (via

2017-03-13 18:37:38 24106 11

原创 Unable to load native-hadoop library for your platform

问题：在启动spark-shell时或在提交jar包运行程序时出现Unable to load native-hadoop library for your platform...using builtin -Java classes where applicable警告。解决： 1.增加环境变量。即在/etc/profile中增加下面的内容： export LD_LIBRARY_PA

2017-03-09 15:55:26 772

原创 Linux shell script遇到unexpected operator错误

解决：因为ubuntu默认的sh是连接到dash的,又因为dash跟bash的不兼容所以出错了.执行时可以把sh换成bash 文件名.sh来执行.

2017-02-20 10:06:56 521

原创 Scala中的模式匹配

1.值匹配 (1)示例： (2)注： a)在值匹配中可进行条件判断 case _ if data=="Flink" => println("Cool") b)bigData中传入的data变量可在match/case模式匹配中赋值给case后面的变量 case data_ if data_ == "Flink" =>println("Cool") //此

2016-11-02 18:58:40 516

原创 Scala中的高阶函数

1.在变量中存放函数 def fun1(name:String){println(name)} //定义函数fun1 val fun1_v=fun1 _ //将函数赋给一个变量（注意函数名和下划线之间有空格） fun1_v("Spark") //调用这个函数 2.匿名函数 val fun2=(conte

2016-10-28 11:51:39 978

原创启动spark-shell后出现not found错误

我曾遇到了类似于这样的问题： error:not found:value sqlContext error:not found:value sc 解决方案： 1.查看ifconfig，看ip地址是否和你在/etc/hosts中的ip地址一致，如果不一致，请修改/etc/hosts中的ip地址。 2.查看spark-env.sh中配置的SPARK_MASTER_IP是否和ifconfig中

2016-10-09 10:48:37 18863