自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

OopsOutOfMemory盛利的博客

分布式计算||数据仓库||数据挖掘

  • 博客(81)
  • 收藏
  • 关注

原创 Hive中reduce个数设定

Hive中reduce个数设定原理解析

2014-06-24 14:46:30 13478 1

原创 About Me

角色名 : 盛利职业 : Hadoop研发,数据库开发 gongcheng

2014-06-23 18:47:17 2082

原创 推荐算法总结Recommendation

目前为止,推荐算法有好多种,比较常见的有协同过滤,但是其它的推荐算法zai

2014-06-23 17:12:40 7078

原创 Shark运维常见问题

Shark部署常见问题1、readObject can't find class org.apache.hadoop.hive.conf.HiveConforg.apache.spark.SparkException: Job aborted: Task 0.0:3 failed 4 times (most recent failure: Exception failure: java.l

2014-06-18 18:10:15 4858

原创 Shark集群搭建配置

Shark是基于Spark与Hive之上的一种SQL查询引擎,本文将带你搭建Shark集群

2014-06-17 18:05:37 4556

原创 Hive数据翻倍总结

1. 本来8千万的数据和8千万的数据一下join后,变成了30亿。。2.

2014-05-23 18:53:56 4285 1

原创 spark in eclipse---Spark学习笔记3

想要调试源代码,还是要放到eclipse里面去。先生成eclipse项目,下载依赖包victor@victor-ubuntu:~/software/incubator-spark-0.8.1-incubating$ mvn eclipse:eclipse[INFO] Scanning for projects...[INFO] ---------------------------

2014-05-20 11:45:43 5543 2

原创 Lateral View用法 与 Hive UDTF explode

Lateral View是Hive中提供给UDTF的conjunction,它可以解决UDTF不能添加额外的select列的问题。1

2014-05-16 19:11:26 27547 5

原创 Spark实例TopN---Spark学习笔记11

Spark是基于内存的分布式计算框架,性能是shi

2014-05-14 18:06:17 16086 5

原创 协同过滤 --- 数据挖掘学习笔记

Recommendation参考文献:collective intelligence

2014-05-09 16:17:22 3261

原创 Cannot find a free socket for the debugger Eclipse调试

最近在使用Eclipse的debug功能时,出现了一个莫名其妙的错误:Cannot find a free socket for the debugger。在网上找了好久都没有找到解答。大部分人说是防火墙没有关闭的问题。可我防火墙已经关闭了还是有这样的问题。看来jdt的源码,找到了抛出Cannot find a free socket for the debugger这个错误信息的原因

2014-05-07 13:04:13 10278

原创 scala协变逆变上界下界---理解篇

如果你对面向对象的泛型bt

2014-04-30 12:02:28 9710 2

原创 scala implicit 隐式转换

我们经常在scala api doc 上看到类似implicit这个关键字。

2014-04-28 16:53:08 14211 3

原创 Spark Hadoop集群部署与Spark操作HDFS运行详解---Spark学习笔记10

目前spark的Run on的hadoop版本大多是hadoop2以上,但是实际上各个公司的生产环境不尽相同,用到2.0

2014-04-21 18:15:59 29512 2

原创 海量小文件网络传输copy优化

今天部署集群环境,拷贝了一下编译好的.class文件。

2014-04-21 15:46:11 6758

原创 Spark0.91使用sbt编译Unresolved依赖问题

最近测试一下spark0.91编译hadoop0.20.2-cdh3u5.经常出现

2014-04-21 14:13:58 8910

原创 Ubuntu12.04安装ganglia监控

Ganglia是UC Berkeley发起的一个开源实时监视项目,用于测量数以千计的节点,为云计算系统提供系统静态数据以及重要的性能度量数据。Ganglia系统基本包含以下三大部分。Gmond:Gmond运行在每台计算机上,它主要监控每台机器上收集和发送度量数据(如处理器速度、内存使用量等)。Gmetad:Gmetad运行在Cluster的一台主机上,作为Web Server,或者用于与W

2014-04-18 00:17:38 2287

原创 Spark0.91编译记录maven

最近新的版本发布了,听说修复了很多bug,专业人士说直接可以弃用0.81版本,直接0.91

2014-04-17 23:04:04 1849

原创 jvm调优--查找最耗CPU的代码

今天在公司用mvn编译的时候,出现机器卡死的情况,让我深深的反省了一下。

2014-04-17 11:25:00 5529 1

原创 RDD Dependency详解---Spark学习笔记9

RDD的最重要的特性之一就是血缘关系,血缘关系描述了

2014-04-16 18:38:43 6880

原创 Spark里几个重要的概念及术语

1. Application客户端的应用程序,

2014-04-16 17:27:54 15420 1

原创 Spark Streaming的WindowedDStream

Spark Streaming的 窗口操作的类WindowedDStream下面我们一起探究一下,Spark Streaming怎么实现chu

2014-04-15 18:34:48 4487

原创 Spark Streaming的窗口操作

1.Spark Streaming的Window Operation可以理解为定时的进行一定时间段内的数据的处理。

2014-04-15 18:16:24 21096

原创 Spark Streaming初探

Spark Streaming是一个基于Spark核心的扩展。主要y

2014-04-14 18:32:19 9346 4

原创 Scala中List的步长by

List中的步长List(1 to 100 by 2:_*) map (i=>i*i) sum

2014-04-11 18:40:43 3967

原创 Scala的cons,集合合并与添加

scala对集合的元素合有特殊的符号,比如::和:::简单说明一下:双冒号是连接 一个元素 和 一个集合

2014-04-11 16:30:23 5834 1

原创 Scala的foldLeft和foldRight

第一次看到/:这样的代码在别人的代码里,感觉很好奇,这是什么符号呢?

2014-04-11 16:16:20 28376 4

原创 Hive导入sequencefile错误

原因:自己上传的微

2014-04-09 18:18:44 5305

原创 Scala 的 yield

Scala 的 yield 例子 (for 循环和 yield 的例子)2012-09-28 — Unmi我看了《Programming in Scala》一书,仍然对 Scala yield 关键字的理解不甚清楚。起初我以为 Scala yield 的与 Ruby 的 yield 是一样,Ruby 中 yield 是被传入代码块的占位符。Scala 中的 yield 关键

2014-04-09 14:49:44 10561

原创 Spark RDD Action 详解---Spark学习笔记8

Spark RDD Action 详解配有实际例子

2014-04-04 17:46:20 13598 2

原创 Spark RDD Transformation 详解---Spark学习笔记7

这几天学习了Spark RDD transformation 和 action ,做个笔记记录下心得,顺便分享给大家。1. 启动spark-shell SPARK_MASTER=local[4] ./spark-shell.shWelcome to      ____              __       / __/__  ___ _____/ /__    _\ \/

2014-04-04 16:09:41 22186 2

原创 hiveUDAF求中位数

第一次写UDAF,拿中位数来练手。看下中位数定义:MEDIAN 中位数(一组数据按从小到大的顺序依次排列,处在中间位置的一个数或最中间两个数据的平均数)写成genericUDAF的形式1 2 3 4 中位数 2+3/2=2.51 2 3 中位数 2附上代码:package org.apache.hadoop.hive.ql.udf.generic;

2014-04-03 13:15:05 7889 1

原创 spark应用开发---Spark学习笔记6

如何部署和开发一个spark应用程序呢?首先要选好环境,我用的是incubator-spark-0.8.1-incubating,那么对应的是scala版本是2.9.3。如果使用maven或者sbt构建,则可以使用gavgroupId = org.apache.sparkartifactId = spark-core_2.9.3version = 0.8.1-incubatin

2014-04-03 00:05:54 3689

原创 Indigo m2e

由于需要调试spark,需要scala ide在eclipse中。但是最新版本的scala ide 调试spark0.81(用的是scala2.9.3),在eclipse导入会报错,因为最新版本的scala ide 支持的是2.10.3安装scala ide http://scala-ide.org/download/current.html还是不支持kepler.于是

2014-03-31 14:15:57 1969

原创 Spark计算Pi运行过程详解---Spark学习笔记4

上回运行了一个计算Pi的例子那么Spark究竟是怎么执行的呢?我们来看一下脚本#!/bin/shexport YARN_CONF_DIR=/home/victor/software/hadoop-2.2.0/etc/hadoopSPARK_JAR=./assembly/target/scala-2.9.3/spark-assembly-0.8.1-incubat

2014-03-31 00:09:46 10965 2

原创 Spark计算Pi---Spark学习笔记2

话接上回Spark学习笔记1-编译源代码,已经成功编译了spark on yarn启动yarnvictor@victor-ubuntu:~/software/hadoop-2.2.0/sbin$ ./start-all.sh This script is Deprecated. Instead use start-dfs.sh and start-yarn.shStarting n

2014-03-28 22:53:17 4168

原创 ubuntu的recovery重置密码

今天不小心用root用户修改了一个文件,导致系统瞬间登陆不上。无奈手机百度了一下,结果发现ubuntu其实这么不安全。。。按shift进入引导,开机进入recovery模式那一栏按下e。修改ro recovery xxxxx  为 rw  single init=/bin/bashctrl +x 或者 f10进入单用户模式chmod 44

2014-03-28 21:14:37 2665

原创 Spark源码编译---Spark学习笔记1

要学习一个框架最好的方式就是调试其源代码。编译Spark 0.81  with hadoop2.2.0本机环境:1.eclipse kepler2.maven3.13.scala2.9.34.ubuntu12.04步骤:1. 先从网上下载spark0.81的源代码.  下载方式:_2.  upzip v0.8.1-incubating.zip3.  expo

2014-03-28 01:10:28 5421 5

原创 查找hive中的视图

有一个需求,让找出hive中的所有视图。hive没有直接的命令来查看这个表是否是视图还是普通表。cd $HIVE_HOME/conf/more hive-site.xml假设我们看到的用户名和密码是hive_user和123456       javax.jdo.option.ConnectionURL     jdbc:mysql://host:3306/hi

2014-03-27 15:34:16 3640

原创 hive求页面访问路径

曾今在论坛上看到一个这样的题:有一张很大的表:TRLOG该表大概有2T左右TRLOG:CREATE TABLE TRLOG(PLATFORM string,USER_ID int,CLICK_TIME string,CLICK_URL string)row format delimitedfields terminated by '\t';数据:PLATFORM U

2014-03-27 15:11:17 2233

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除