- 博客(81)
- 收藏
- 关注
原创 Shark运维常见问题
Shark部署常见问题1、readObject can't find class org.apache.hadoop.hive.conf.HiveConforg.apache.spark.SparkException: Job aborted: Task 0.0:3 failed 4 times (most recent failure: Exception failure: java.l
2014-06-18 18:10:15 4918
原创 spark in eclipse---Spark学习笔记3
想要调试源代码,还是要放到eclipse里面去。先生成eclipse项目,下载依赖包victor@victor-ubuntu:~/software/incubator-spark-0.8.1-incubating$ mvn eclipse:eclipse[INFO] Scanning for projects...[INFO] ---------------------------
2014-05-20 11:45:43 5576 2
原创 Lateral View用法 与 Hive UDTF explode
Lateral View是Hive中提供给UDTF的conjunction,它可以解决UDTF不能添加额外的select列的问题。1
2014-05-16 19:11:26 30896 5
原创 Cannot find a free socket for the debugger Eclipse调试
最近在使用Eclipse的debug功能时,出现了一个莫名其妙的错误:Cannot find a free socket for the debugger。在网上找了好久都没有找到解答。大部分人说是防火墙没有关闭的问题。可我防火墙已经关闭了还是有这样的问题。看来jdt的源码,找到了抛出Cannot find a free socket for the debugger这个错误信息的原因
2014-05-07 13:04:13 10308
原创 Spark Hadoop集群部署与Spark操作HDFS运行详解---Spark学习笔记10
目前spark的Run on的hadoop版本大多是hadoop2以上,但是实际上各个公司的生产环境不尽相同,用到2.0
2014-04-21 18:15:59 29634 2
原创 Spark0.91使用sbt编译Unresolved依赖问题
最近测试一下spark0.91编译hadoop0.20.2-cdh3u5.经常出现
2014-04-21 14:13:58 8982
原创 Ubuntu12.04安装ganglia监控
Ganglia是UC Berkeley发起的一个开源实时监视项目,用于测量数以千计的节点,为云计算系统提供系统静态数据以及重要的性能度量数据。Ganglia系统基本包含以下三大部分。Gmond:Gmond运行在每台计算机上,它主要监控每台机器上收集和发送度量数据(如处理器速度、内存使用量等)。Gmetad:Gmetad运行在Cluster的一台主机上,作为Web Server,或者用于与W
2014-04-18 00:17:38 2308
原创 Spark Streaming的WindowedDStream
Spark Streaming的 窗口操作的类WindowedDStream下面我们一起探究一下,Spark Streaming怎么实现chu
2014-04-15 18:34:48 4543
原创 Spark Streaming的窗口操作
1.Spark Streaming的Window Operation可以理解为定时的进行一定时间段内的数据的处理。
2014-04-15 18:16:24 21142
原创 Scala的cons,集合合并与添加
scala对集合的元素合有特殊的符号,比如::和:::简单说明一下:双冒号是连接 一个元素 和 一个集合
2014-04-11 16:30:23 5868 1
原创 Scala 的 yield
Scala 的 yield 例子 (for 循环和 yield 的例子)2012-09-28 — Unmi我看了《Programming in Scala》一书,仍然对 Scala yield 关键字的理解不甚清楚。起初我以为 Scala yield 的与 Ruby 的 yield 是一样,Ruby 中 yield 是被传入代码块的占位符。Scala 中的 yield 关键
2014-04-09 14:49:44 10596
原创 Spark RDD Transformation 详解---Spark学习笔记7
这几天学习了Spark RDD transformation 和 action ,做个笔记记录下心得,顺便分享给大家。1. 启动spark-shell SPARK_MASTER=local[4] ./spark-shell.shWelcome to ____ __ / __/__ ___ _____/ /__ _\ \/
2014-04-04 16:09:41 22266 2
原创 hiveUDAF求中位数
第一次写UDAF,拿中位数来练手。看下中位数定义:MEDIAN 中位数(一组数据按从小到大的顺序依次排列,处在中间位置的一个数或最中间两个数据的平均数)写成genericUDAF的形式1 2 3 4 中位数 2+3/2=2.51 2 3 中位数 2附上代码:package org.apache.hadoop.hive.ql.udf.generic;
2014-04-03 13:15:05 7921 1
原创 spark应用开发---Spark学习笔记6
如何部署和开发一个spark应用程序呢?首先要选好环境,我用的是incubator-spark-0.8.1-incubating,那么对应的是scala版本是2.9.3。如果使用maven或者sbt构建,则可以使用gavgroupId = org.apache.sparkartifactId = spark-core_2.9.3version = 0.8.1-incubatin
2014-04-03 00:05:54 3751
原创 Indigo m2e
由于需要调试spark,需要scala ide在eclipse中。但是最新版本的scala ide 调试spark0.81(用的是scala2.9.3),在eclipse导入会报错,因为最新版本的scala ide 支持的是2.10.3安装scala ide http://scala-ide.org/download/current.html还是不支持kepler.于是
2014-03-31 14:15:57 1992
原创 Spark计算Pi运行过程详解---Spark学习笔记4
上回运行了一个计算Pi的例子那么Spark究竟是怎么执行的呢?我们来看一下脚本#!/bin/shexport YARN_CONF_DIR=/home/victor/software/hadoop-2.2.0/etc/hadoopSPARK_JAR=./assembly/target/scala-2.9.3/spark-assembly-0.8.1-incubat
2014-03-31 00:09:46 11016 2
原创 Spark计算Pi---Spark学习笔记2
话接上回Spark学习笔记1-编译源代码,已经成功编译了spark on yarn启动yarnvictor@victor-ubuntu:~/software/hadoop-2.2.0/sbin$ ./start-all.sh This script is Deprecated. Instead use start-dfs.sh and start-yarn.shStarting n
2014-03-28 22:53:17 4194
原创 ubuntu的recovery重置密码
今天不小心用root用户修改了一个文件,导致系统瞬间登陆不上。无奈手机百度了一下,结果发现ubuntu其实这么不安全。。。按shift进入引导,开机进入recovery模式那一栏按下e。修改ro recovery xxxxx 为 rw single init=/bin/bashctrl +x 或者 f10进入单用户模式chmod 44
2014-03-28 21:14:37 2716
原创 Spark源码编译---Spark学习笔记1
要学习一个框架最好的方式就是调试其源代码。编译Spark 0.81 with hadoop2.2.0本机环境:1.eclipse kepler2.maven3.13.scala2.9.34.ubuntu12.04步骤:1. 先从网上下载spark0.81的源代码. 下载方式:_2. upzip v0.8.1-incubating.zip3. expo
2014-03-28 01:10:28 5459 5
原创 查找hive中的视图
有一个需求,让找出hive中的所有视图。hive没有直接的命令来查看这个表是否是视图还是普通表。cd $HIVE_HOME/conf/more hive-site.xml假设我们看到的用户名和密码是hive_user和123456 javax.jdo.option.ConnectionURL jdbc:mysql://host:3306/hi
2014-03-27 15:34:16 3703
原创 hive求页面访问路径
曾今在论坛上看到一个这样的题:有一张很大的表:TRLOG该表大概有2T左右TRLOG:CREATE TABLE TRLOG(PLATFORM string,USER_ID int,CLICK_TIME string,CLICK_URL string)row format delimitedfields terminated by '\t';数据:PLATFORM U
2014-03-27 15:11:17 2264
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人