自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(54)
  • 收藏
  • 关注

转载 关于Shell 脚本中的"[: too many arguments"错误

原文出自http://ywuchn.spaces.live.com/Blog/cns!2F33043850B92381!532.entry 今天发现Shell脚本中的if语句产生了如题的错误,经检查,发现是因为脚本中的命令生成的结果含有多个单词,而该结果去和一个值比较时产生了如题的错误,不仔细看让人很困惑.下面是从IBM的developerworks 上找到的部分资料:(htt

2017-07-12 20:43:50 549

原创 shell 脚本中将输出内容赋值给一个变量时的换行问题

如题,将某命令的输出结果赋值给一个变量 a如果使用 echo $a 输出变量,则变量中的 换行都会被忽略掉,所有内容输出到一行而使用 echo "$a"  可正常输出变量中的换行当我们要将命令的输出保存到一个变量,再对每一行遍历进行某些操作时不能使用 [html] view plaincopy

2017-07-12 20:20:00 794

转载 Spark常见问题汇总

注意:如果Driver写好了代码,eclipse或者程序上传后,没有开始处理数据,或者快速结束任务,也没有在控制台中打印错误,那么请进入spark的web页面,查看一下你的任务,找到每个分区日志的stderr,查看是否有错误,一般情况下一旦驱动提交了,报错的情况只能在任务日志里面查看是否有错误情况了1、Operation category READ is not supported in state

2017-05-16 14:56:09 1138

转载 Spark性能优化指南——高级篇

本文转自:http://tech.meituan.com/spark-tuning-pro.html感谢原作者前言 继基础篇讲解了每个Spark开发人员都必须熟知的开发调优与资源调优之后,本文作为《Spark性能优化指南》的高级篇,将深入分析数据倾斜调优与shuffle调优,以解决更加棘手的性能问题。数据倾斜调优 调优概述 有的时候,我们可能会遇到大数据计算中一个最棘手的问题——数据倾斜,此时

2017-05-15 18:13:25 254

转载 JVM:垃圾回收机制和调优手段

JVM:垃圾回收机制和调优手段我们都知道JVM内存由几个部分组成:堆、方法区、栈、程序计数器、本地方法栈 JVM垃圾回收仅仅针对公共内存区域即:堆和方法区进行。 本文主要讨论两点,一是垃圾回收策略,二是调优的方法。一、垃圾回收机制1.1 分代管理 将堆和方法区按照对象不同年龄进行分代: u 堆中会频繁创建对象,基于一种分代的思想,按照对象存活时间将堆划分为新生代和旧生代两部分,我们不能一次

2017-05-12 14:54:20 196

转载 深入理解JVM--JVM垃圾回收机制

转载自:http://jbutton.iteye.com/blog/1569746Java语言出来之前,大家都在拼命的写C或者C++的程序,而此时存在一个很大的矛盾,C++等语言创建对象要不断的去开辟空间,不用的时候有需要不断的去释放控件,既要写构造函数,又要写析构函数,很多时候都在重复的allocated,然后不停的~析构。于是,有人就提出,能不能写一段程序在实现这块功能,每次创建,释放控件的时候

2017-05-12 14:51:35 173

转载 Java 的枚举(Enums) 可以实现接口(Interfaces)

转载自:https://www.oschina.net/question/54100_21934Java 中一个典型的枚举类型,看似字符串值,但包含一些附加的信息,包括排序以及附加的方法可以获取枚举值的信息。下面是一个基本的枚举类型:public enum Suit { CLUBS, DIAMONDS, HEARTS, SPADES }可增加附加信息,例

2017-04-17 15:26:23 532

转载 Java jdbc数据库连接池总结!

Java jdbc数据库连接池总结! 转载自: http://www.blogjava.net/chunkyo/archive/2007/01/16/94266.html引言   近年来,随着Internet/Intranet建网技术的飞速发展和在世界范围内的迅速普及,计算机  应用程序已从传统的桌面应用转到Web应用。基于B/S(Browser/Server)架构的3层开发模式逐渐取代C/S

2017-03-08 15:59:57 196

转载 Spark on Yarn遇到的几个问题

转载自:http://www.cnblogs.com/Scott007/p/3889959.html1 概述    Spark的on Yarn模式,其资源分配是交给Yarn的ResourceManager来进行管理的,但是目前的Spark版本,Application日志的查看,只能通过Yarn的yarn logs命令实现。    在部署和运行Spark Appl

2015-12-03 16:17:28 648

转载 最大子序列、最长递增子序列、最长公共子串、最长公共子序列、字符串编辑距离

转载自:http://www.cnblogs.com/zhangchaoyang/articles/2012070.html最大子序列最大子序列是要找出由数组成的一维数组中和最大的连续子序列。比如{5,-3,4,2}的最大子序列就是 {5,-3,4,2},它的和是8,达到最大;而 {5,-6,4,2}的最大子序列是{4,2},它的和是6。你已经看出来了,找最大子序列的方法很简单,只要前i项的和还没有

2015-11-16 13:56:51 245

原创 spark操作hbase中的数据

首先,需要在spark中添加hbase的jar包,在{SPARK_HOME}/conf/spark-env.sh 中添加:export  SPARK_CLASSPATH=/opt/cloudera/parcels/CDH/lib/hbase/lib/*环境配置为了避免版本不一致带来不必要的麻烦,API 和 HBase环境都是 1.0.0 版本。HBase 为

2015-10-13 15:58:42 3895

原创 使用beeline/jdbc 连接hive,impala,sparksql

hive和sparksql的端口号都是10000,所以在连接时我们要区分连接的是sparksql还是hive。连接hive:beeline -u jdbc:hive2://cdh1:10000/default连接sparksql:在cdh2上启动spark thirft-server服务:/opt/cloudera/parcels/CDH/lib/spark/sbin/st

2015-10-12 11:52:24 2907

原创 useradd失败:cannot open shadow password file

解决方法一:问题描述:  [root@twin0563 ~]# adduser zabbix -g zabbix  adduser: cannot open shadow password file如何解决:  [root@twin0563 ~]# chattr -i /etc/gshadow  [root@twin0563 ~]# chattr -i /etc

2015-10-08 14:25:48 1502

转载 spark streaming updateStateByKey 用法

updateStateByKey 解释: 以DStream中的数据进行按key做reduce操作,然后对各个批次的数据进行累加 在有新的数据信息进入或更新时,可以让用户保持想要的任何状。使用这个功能需要完成两步: 1) 定义状态:可以是任意数据类型 2) 定义状态更新函数:用一个函数指定如何使用先前的状态,从输入流中的新值更新状态。 对于有状态操作,要不断的把当前和历史的时间切

2015-09-28 16:50:53 548

转载 搭建(win7)eclipse远程操作(Linux上)hadoop2.6.0_出错集

问题1:在DFS Lcation 上不能多文件进行操作:在hadoop上的每个节点上修改该文件 conf/mapred-site.xml 增加: <property> <name>dfs.permissions</name> <value>false</value>

2015-09-23 17:38:13 329

原创 远征ssh登录到另一台服务器上执行命令

有时候需要在一台服务器上,远程执行另一台服务器上的命令,如执行另一台服务器上的脚本文件。可以用如下脚本实现:vim remote.sh#!/usr/binssh hadoop@master cd /home/hadoop/testsh test.shEOF注意,在哪个用户下执行remote.sh脚本文件,就需要让这个用户与master服务器的hadoop

2015-03-24 18:13:32 1996

转载 Hadoop HDFS架构和设计

转载自:http://greatwqs.iteye.com/blog/1840321引言  Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。它和现有的分布式文件系统有很多共同点。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供

2015-03-24 17:58:01 344

转载 IntelliJ IDEA 快捷键

代码提示KEYMAP->Mainmenu->Code->CompleteCode->Basic 设置快捷键ALT+Z原是ctrl+空格(SPACE)                KEYMAP->Mainmenu->Code->Generate 设置快捷键ALT+Insert原是AlT+Shift+S Alt+回车 导入包, 自动修正 Ctrl+N查找类 Ctrl+Shift+N查找文

2015-02-10 14:18:45 336

转载 Spark On Yarn(HDFS HA)详细配置过程

转载自:http://database.51cto.com/art/201404/435630.htmSpark On Yarn(HDFS HA)详细配置过程2014-04-16 11:01 人生理想在于坚持不懈 51CTO博客 字号:T |T我们将要介绍Spark On Yarn详细配置过程,包括服务器分布以及Spark的部署全部过程。AD:WOT2015 互

2015-02-09 10:19:33 665

原创 linux使用yum命令时出现的BDB0055 illegal flag specified to DB_ENV->open的错误

在linux里,使用yum命令时出现如下的错误:BDB0055 illegal flag specified to DB_ENV->openrpmdb:No such file or directorySegmentation fault (core dumped)这是由于yum内部所需要使用的Berkeley DB出现问题,出现这一原因很可能是因为在安装某个软件时修改了B

2014-12-30 15:48:14 861

原创 如何访问jar包的文件

在项目当中,经常需要把一个小功能模块做好后,打成jar包,供其它的项目使用。经常发生在java工程中可以正常运行,而打成jar包后却找不到文件的错误。如工程目录结构如下:src/com/Resource.javabin/com/resource.txt打成jar包后,jar包中的目录结构如下:com/Resource.javacom/resource.txt

2014-12-11 14:32:07 1024

转载 使用Storm实现实时大数据分析

摘要:随着数据体积的越来越大,实时处理成为了许多机构需要面对的首要挑战。Shruthi Kumar和Siddharth Patankar在Dr.Dobb’s上结合了汽车超速监视,为我们演示了使用Storm进行实时大数据分析。CSDN在此编译、整理。简单和明了,Storm让大数据分析变得轻松加愉快。当今世界,公司的日常运营经常会生成TB级别的数据。数据来源囊括了互联网装置可以捕获

2014-11-24 13:49:59 581

转载 org.apache.hadoop.hbase.coprocessor.AggregateImplementation 来统计hbase表的行数

hbase自带了一个聚合coprocessor类:org.apache.hadoop.hbase.coprocessor.AggregateImplementation。使用该类可以count一张表的总记录数。当然在hbase shell下面也可以count 来统计。我这里比较了一下两者的执行时间,我有一张表有700多万的数据,在hbase shell下count足足花费了我12分钟的时间

2014-11-05 16:39:44 885

原创 关于Hadoop中的采样器

关于Hadoop中的采样器1.为什么要使用采样器在这个网页上有一段描述比较靠谱 http://www.philippeadjiman.com/blog/2009/12/20/hadoop-tutorial-series-issue-2-getting-started-with-customized-partitioning/ 简单的来说就是解决"How to automatical

2014-10-31 20:24:08 921

原创 关于Hadoop中的采样器

关于Hadoop中的采样器1.为什么要使用采样器在这个网页上有一段描述比较靠谱 http://www.philippeadjiman.com/blog/2009/12/20/hadoop-tutorial-series-issue-2-getting-started-with-customized-partitioning/ 简单的来说就是解决"How to automatical

2014-10-31 20:01:22 52

转载 Spark Streaming:大规模流式数据处理的新贵

转载地址:http://www.csdn.net/article/2014-01-28/2818282-Spark-Streaming-big-data提到Spark Streaming,我们不得不说一下BDAS(Berkeley Data Analytics Stack),这个伯克利大学提出的关于数据分析的软件栈。从它的视角来看,目前的大数据处理可以分为如以下三个类型。

2014-10-15 11:38:54 503

转载 Spark:一个高效的分布式计算系统

概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架,Spark基于map reduce算法实现的分布式计算,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出和结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习

2014-09-17 15:36:02 452

原创 hive锁机制

hive存在两种锁,共享锁Shared(S)和互斥锁Exclusive(X),其中只触发s锁的操作可以并发的执行,只要有一个操作对表或者分区出发了x锁,则该表或者分区不能并发的执行作业。各个操作锁出发的锁如下:Hive CommandLocks Acquiredselect .. T1 partition P1S on T1, T1.

2014-09-12 14:33:39 2851 1

转载 log4j配置和使用

Log4j有3个主要的组件Logger(记录器),Appenders(输出源),Layout(布局)。日志类别,日志要输出的地址,日志以何种形式输出。1.LoggersDEBUG,INFO,WARN,ERROR,FATAL2.Appenders可以将其输出到文件,Console,可以根据日期等进行文件自动分割。常用如下:org.apache.log4j.ConsoleA

2014-09-11 17:57:31 444

转载 hive 权限控制

Hive权限控制Hive权限机制:Hive从0.10可以通过元数据控制权限。但是Hive的权限控制并不是完全安全的。基本的授权方案的目的是防止用户不小心做了不合适的事情。 先决条件:为了使用Hive的授权机制,有两个参数必须在hive-site.xml中设置: hive.security.authorization.enabled t

2014-09-11 13:38:16 661

转载 hive中RegexSerDe的使用

RegexSerDe是hive自带的一种序列化/反序列化的方式,主要用来处理正则表达式。举个实际的例子:[sql] view plaincopyprint?CREATE TABLE test_serde(  c0 string,  c1 string,  c2 string)  ROW FORMAT  SERDE 'org.apache.hadoop.hiv

2014-09-10 17:00:52 643

原创 eclipse和hadoop2.3.0相连

之前公司的集群使用的是hadoop 1x系列的,直接在window系统下uf

2014-09-03 15:44:26 565

转载 flume-ng+Kafka+Storm+HDFS 实时系统搭建

【转】flume-ng+Kafka+Storm+HDFS 实时系统搭建 一直以来都想接触Storm实时计算这块的东西,最近在群里看到上海一哥们罗宝写的Flume+Kafka+Storm的实时日志流系统的搭建文档,自己也跟着整了一遍,之前罗宝的文章中有一些要注意点没提到的,以后一些写错的点,在这边我会做修正;内容应该说绝大部分引用罗宝的文章的,这里要谢谢罗宝兄弟,还有写这篇文章@晨色

2014-08-20 20:42:59 565

转载 hive Lateral View语法

转载:http://yugouai.iteye.com/blog/1849902个人理解有点类似列转行函数Lateral View语法Sql代码  lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)*  fromC

2014-08-19 16:01:56 479

转载 hadoop压缩格式

1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。缺点:不支持split。应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip文件,

2014-08-18 14:50:33 777

原创 解决impala运行时出现的UnicodeEncodeError: 'ascii' codec can't encode characters in position问题

在impala里面进行join操作时,出现了:UnicodeEncodeError: 'ascii' codec can't encode characters in position的错误

2014-08-13 17:59:45 2742

转载 Pig用户自定义函数(UDF)

我们以气温统计和词频统计为例,讲解以下三种用户自定义函数。用户自定义函数什么时候需要用户自定义函数呢?和其它语言一样,当你希望简化程序结构或者需要重用程序代码时,函数就是你不二选择。Pig的用户自定义函数可以用Java编写,但是也可以用Python或Javascript编写。我们接下来以Java为例。自定义过滤函数我们仍然以先前的代码为例:recor

2014-07-23 11:00:47 487

转载 Impala入门笔记

转载地址:http://tech.uc.cn/?p=817问题背景:初步了解Impala的应用重点测试Impala的查询速度是否真的如传说中的比Hive快3~30倍写作目的:了解Impala的安装过程初步了解Impala的使用比较Impala与Hive的性能测试适合阅读对象:想了解Impala安装的读者想了解I

2014-07-21 10:50:45 506

转载 Impala与Hive的比较

转载地址:http://tech.uc.cn/?p=18031. Impala架构       Impala是Cloudera在受到Google的Dremel启发下开发的实时交互SQL大数据查询工具,Impala没有再使用缓慢的Hive+MapReduce批处理,而是通过使用与商用并行关系数据库中类似的分布式查询引擎(由Query Planner、Query C

2014-07-21 10:49:10 431

原创 浅谈DBInputFormat

通常情况下用sqoop把关系型数据库里面的内容导入到hdfs,但是sqoop在数据分布不均的情况下,效率非常低,如:可能你给sqoop任务分配了10个map,但是真正起导数据作用的就只有1个,非常影响效率,这时候就可以考虑自己写MR把数据导入到hdfs,这时就需要使用DBInputFormat。DBInputFormat 主要用于把关系型数据库(如oracle,mysql)里面的数据导入到hd

2014-06-26 14:51:37 688

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除