自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(52)
  • 收藏
  • 关注

[一起学Hive]之四-Hive的安装配置

其实Hive的安装配置应该放在第二章来介绍,晚了些,希望对Hive初学者有用。三、Hive的安装配置3.1 环境需求Hadoop ClientMysql3.2 下载并解压Hive0.13.1安装包下载地址:http://archive.apache.org/dist/hive/hive-0.13.1/apache-hive-0.13.1-bin.tar.gzcp...

2015-06-05 09:19:15 111

sqlserver 动态列转行

今天在sqlserver2012上遇到一个分析需求,用到动态列转行,记录一下: create table t1 (id int,value varchar(100));insert into t1 values(1,'a,b,c');insert into t1 values(2,'a,b,c,d,e');insert into t1 values(3,'a,b,c,d,e,...

2014-12-23 15:26:06 179

Hive并行排序

set hive.optimize.sampling.orderby=true;set hive.optimize.sampling.orderby.number=10000;set hive.optimize.sampling.orderby.percent=0.1f;  记录一下,Hive中并行排序参数; hive.optimize.sampling.orderby   ...

2014-11-13 14:31:53 131

初装Hive运行时候报错 Exception in thread "main" java.io.IOException: Permission denied

将Hadoop和Hive客户端拷贝到另一台机器,除了root用户,其他运行运行hive命令均报错: Exception in thread "main" java.io.IOException: Permission denied at java.io.UnixFileSystem.createFileExclusively(Native Method) ...

2014-11-04 10:32:57 163

JAVA通用的字符串转日期

因为需求,只写了年月日时的自动转换。 public static Date convertStringToDate(String time) { String separator_yM = ""; String separator_Md = ""; String separator_dH = ""; String yyyy = ""; String MM =...

2014-10-22 14:54:45 87

Hive0.13+Hadoop cdh3中的log4j问题

Hive0.12+ 在Hadoop cdh3(1.0)中使用,会有如下错误: log4j:ERROR Could not instantiate class [org.apache.hadoop.hive.shims.HiveEventCounter].java.lang.RuntimeException: Could not load shims in class org.apac...

2014-10-22 10:36:40 199

Neo4j使用例子

准备开发一个任务调度系统,其中使用Neo4j来保存和查询任务之间的依赖关系,整理了一个服务类,记录一下。使用的Neo4j版本为:2.1.3 服务类: import java.io.File;import java.io.IOException;import java.util.ArrayList;import java.util.Date;import j...

2014-09-11 15:49:50 98

shell中将输出和错误重定向到日志文件

开始之前: exec 3>&1exec 4>&2exec &>$LOGFILE 结束后还原:exec 1>&3 3>&-exec 2>&4 4>&-

2014-08-28 08:56:09 288

MySQL Cluster 7.3.5安装配置

MySQL-Cluster简介:MySQL Cluster是一种技术,该技术允许在无共享的系统中部署“内存中”数据库的集群。通过无共享体系结构,系统能够使用廉价的硬件,而且对软硬件无特殊要求,适合于分布式计算环境的高实用、高冗余版本。此外,由于每个组件有自己的内存和磁盘,不存在单点故障。MySQL Cluster将标准的MySQL服务器与名为NDB的“内存中”集群式存储引...

2014-04-15 16:27:55 58

HttpClient PostMethod 传递json

记录下,备查。 /** * 获取post请求响应 * @param url * @param params * @return */ public static String urlPostMethod(String url,String params) { HttpClient httpClient = new HttpClient(); ...

2014-04-02 15:05:55 179

Storm因机器断电等,启动supervisor错误

因机器断电或其他异常导致的supervisor意外终止,再次启动时报错: 2013-09-24 09:15:44,361 INFO [main] daemon.supervisor (NO_SOURCE_FILE:invoke(0)) - Starting supervisor with id 74332654-8925-48a1-b67b-7eacaa52aeca at host h...

2013-09-24 09:20:39 62

Hive中实现group concat功能(不用udf)

hive> desc t;OKid stringstr stringTime taken: 0.249 secondshive> select * from t;OK1 A1 B2 C2 DTime taken: 0.209 seconds 在Hive0.9中,可用:...

2013-06-14 16:32:26 378

MapReduce直接连接Mysql获取数据

Mysql中数据: mysql> select * from lxw_tbls;+---------------------+----------------+| TBL_NAME | TBL_TYPE |+---------------------+----------------+| lxw_test_table | ...

2013-05-31 17:29:26 75

原创 MapReduce读取HDFS,将结果写入MongoDB

参考:http://docs.mongodb.org/ecosystem/tutorial/getting-started-with-hadoop/附件是我编译和下载好的jar包(hadoop版本:hadoop-0.20.2-cdh3u3),需要的可下载直接使用。 首先,编译MongoDB Adapter1.下载源码:https://github.com/mongodb/mo...

2013-05-29 11:07:51 63

hive中使用标准sql实现分组内排序

在hive中,想要实现分组内排序,一般都是自己写udf实现oracle中分析函数row_number() over(partition)的功能,如果不使用自定义udf,仅使用标准sql实现的话,毫无性能可言,仅做实验而已。 方便起见,以下语句为oracle中语句,但都属于标准sql,在hive中亦可: CREATE TABLE lxw_t (user_id VARCHAR2(20...

2013-05-15 10:22:14 156

利用Redis的有序集合做购物车商品相关性分析

本文所指的“商品的相关性”,就是依据与某个商品同时出现在购物车中次数最多的商品。 实际应用场景有: 1. 在某一商品的detail页面,推荐给用户与该商品相关的N个商品; 2. 在添加购物车成功页面,当用户把一个商品添加到购物车,推荐给用户N个与之相关的商品; 3. 在货架上将相关性比较高的几个商品摆放在一起; 利用Redis的有序集合做法如下:每种商品构建一个有序集合,集合的成员为和该...

2013-05-14 14:05:07 60

原创 关于memcached的HA方案探究2

1. 使用repcached     这个不做多的说明。     该方案优点:两个Memcached都可以进行读写操作,互相冗余。缺点:只支持单对单(一个master和一个slave),怎么样在多个memcached中使用repcached,我没找到答案。 2. 使用MAgent    项目地址:http://code.google.com/p/memagent/wiki/HowMag...

2013-04-23 16:18:41 68

Kerboers认证由于和Master时间不同步导致的错误

刚发现Hbase集群一台RegionServer挂掉了,重启之后仍然不正常,日志中的错误:Caused by: java.io.IOException: Login failure for hbase/hd0159-sw36.dc.sh-wgq.sdo.com@DC.SH-WGQ.SDO.COM from keytab /home/hdfs/hbase-current/conf/hbase...

2013-04-03 15:56:11 181

hive左外关联(left outer join)中主从表的过滤条件

select a.sdid,b.cookie_idfrom lxw_t2 aleft outer join lxw_t1 b on (a.sdid = b.cookie_id and a.pt = '2012-11-22'); 如果把主表a的过滤条件写在on后面,则会先关联,在关联之后的结果上再过滤。 select a.cookie_id,b.sdidfrom ...

2012-12-25 11:12:18 306

通过ssh在远程机器后台sudo执行脚本

需要到几百台机器上去删除一些目录,每台机器上的目录名固定,共有12个,有一台机器(A)可以免密码ssh到这几百台机器上,刚开始使用如下命令: ssh remoteHost -t 'nohup sudo rm -rf /opt/data01/mapred/local/toBeDeleted/ &' 发现远程机器上的命令执行不起来,ssh 到远程机器上,使用nohup ...

2012-12-25 09:44:08 127

perl的多线程脚本示例

#!/usr/bin/perl -wuse strict;use Data::Dumper;use POSIX;use Getopt::Long;use threads ('exit' => 'threads_only');use List::Util 'shuffle';use Thread::Semaphore;use threads::shared;...

2012-12-25 09:41:39 126

原创 hive中巧用正则表达式的贪婪匹配

需求:从字符串"979|7.10.80|8684"中提取最后一个竖线|后面的内容,但是在这个字符串中,竖线的个数不是固定的 。 使用hive中的regexp_extract函数实现如下:select regexp_extract('979|7.10.80|8684','.*\\|(.*)',1) from t1 limit 1; OK 8864 由于...

2012-12-20 17:19:28 156

hadoop-error:DiskChecker$DiskErrorException: Invalid volume failure config value

2012-12-17 10:58:59,925 ERROR org.apache.hadoop.hdfs.server.datanode.DataNode: org.apache.hadoop.util.DiskChecker$DiskErrorException: Invalidvolume failure config value: 3 at org.apache.ha...

2012-12-17 13:33:12 216

linux如何复制用户信息到另一台机器

1. 复制3个文件:/etc/passwd,/etc/group,/etc/shadow 2. 为各个用户创建home目录 3.复制用户home目录下的.bashrc .bash_profile

2012-11-22 17:40:54 284

【收藏】hadoop hdfs命令

cat使用方法:hadoop fs -cat URI [URI …]将路 径指定文件的内容输出到stdout。示 例:    hadoop fs -cat hdfs://host1:port1/file1 hdfs://host2:port2/file2    hadoop fs -cat file:///file3 /user/hadoop/file4返回值:成功返回...

2012-11-06 09:37:24 52

原创 数据分析和数据挖掘的区别

有很多初入商业智能的同学可能不明白数据分析和数据挖掘的区别在哪里,觉得他们做的事情都差不多,我亦如此! 经过这几年工作中和他们的合作和学习,大概清楚了他们的区别,今天看到一篇文章,系统的解释了下这两者的区别: 数据分析,是对数据的一种操作手段。或者算法。目标是针对先验的约束,对数据进行整理,筛选,加工。由此得到信息。数据挖掘,是对数据分析手段后的信息,进行价值化的分析。而数...

2012-10-30 10:45:04 129

使用kerberos的hadoop选择java版本需注意

使用kerberos的hadoop集群,如果在kerberos配置文件正确,但访问hdfs报错: WARN ipc.Client: Exception encountered while connecting to the server : javax.security.sasl.SaslException: GSS initiate failed [Caused by GSSExcept...

2012-07-12 09:51:57 92

hadoop修改kerberos默认的配置文件

kerberos默认的配置文件krb5.conf文件位于/etc目录下,如果需要为hadoop指定到另外目录的配置文件,修改$HADOOP_HOME/conf/hadoop-env.sh export HADOOP_OPTS="-Djava.net.preferIPv4Stack=true -Djava.security.krb5.conf=/home/p_sdo_data_etl...

2012-07-05 15:23:18 157

hive中转义特殊字符

原SQL如下: regexp_extract(lower(url), 'bookid\\=([^&$]+)', 1) 封装hive sql用的是perl,perl中用hive -e的方式将sql传给hive执行,上面的语句中perl经过转义,变成了 regexp_extract(lower(url), 'bookid=([^&5.008008+)', 1)...

2012-06-27 09:51:37 1574

hive的不等值关联

hive中不支持不等值关联,诸如: select a.app_name,b.app_name from a left outer join b on (b.app_name like a.app_name)  select a.app_name,b.app_name from a left outer join b on (b.num < a....

2012-06-25 10:22:07 464 1

原创 hive中一些实用的小技巧

1. 忽略错误,继续执行下面的语句,特别是在使用hive -f "xxx.sql"时候比较实用:     hive --hiveconf hive.cli.errors.ignore=true -f "xxx.sql" 2. 虚拟列:    INPUT__FILE__NAME(输入文件的路径)    BLOCK__OFFSET__INSIDE__FILE(记录在文件中的偏移...

2012-06-21 17:47:46 111

mapreduce报错:java.io.IOException: Split metadata size exceeded 10000000.

Failure Info:Job initialization failed: java.io.IOException: Split metadata size exceeded 10000000. Aborting job job_201205162059_1073852 at org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.r...

2012-06-21 15:46:21 173

hive新旧jar包冲突引起的错误java.lang.NoSuchFieldError: info

Exception in thread "main" java.lang.NoSuchFieldError: info at org.apache.hadoop.hive.cli.CliDriver.run(CliDriver.java:583) at org.apache.hadoop.hive.cli.CliDriver.main(CliDriver.jav...

2012-06-21 11:34:53 166

开发高效的hive程序,hive优化

给部门做的一次hive开发优化的分享,经验不足,还请大家多多指教。 ppt见附件。  •分区裁剪、列裁剪•合理利用中间表,避免对一个表重复扫描•尽量避免笛卡尔积•合理使用MapJoin•用Join代替IN•合理使用Union a...

2012-06-20 10:04:24 62

原创 HBase基本命令备忘

名称命令表达式创建表create '表名称', '列名称1','列名称2','列名称N'添加记录      put '表名称', '行名称', '列名称:', '值'查看记录get '表名称', '行名称'查看表中的记录总数count  '表名称'删除记录delete  '表名' ,'行名称' , '列名称'删...

2012-06-14 17:09:47 70

hive权限控制---限定用户的某些操作权限

package com.lxw.hive;import org.apache.hadoop.hive.ql.parse.ASTNode;import org.apache.hadoop.hive.ql.parse.AbstractSemanticAnalyzerHook;import org.apache.hadoop.hive.ql.parse.HiveParser;...

2012-06-05 16:31:57 80

原创 hive--Sort Merge Bucket Map Join

Bucket Map Join 1. 测试1:两个1亿多记录的表,不存在数据倾斜与笛卡尔积,测试下来与普通的join差不多; 2. 测试2:一个4000万和一个5000多万的表join,关联键数据倾斜,并且笛卡尔积,效果明显; create table lxw_test(imei string,sndaid string,data_time string)C...

2012-05-30 19:31:25 138

原创 单独启动datanode和tasktracker遇到的小问题

在测试集群上拉了5台机器,自己另外搭建了一个小集群,不影响原来的集群。 1.规划,jobtracker一台,namenode一台,datanode三台,secondNamenode和网关机一台 2.新建用户lxw,并打通无密码ssh 3.安装版本0.20.2 完成之后先启动namenode和jobtracker,接着启动一台datanode时候报错 2012...

2012-05-28 19:45:29 97

原创 hive中合理使用union all与multi insert

对同一张表的union all 要比多重insert快的多, 原因是hive本身对这种union all做过优化,即只扫描一次源表; http://www.apacheserver.net/How-is-Union-All-optimized-in-Hive-at229466.htm 而多重insert也只扫描一次,但应为要insert到多个分区,所以做了很多其他的事情,导致消耗的时间非常长;...

2012-05-21 16:53:12 109

原创 hive 多字段同时count(distinct)优化

1.    需求与现状:源表:pcup_3month_login_dtl_mes , 记录数12亿,文件数 300统计SQL: insert overwrite table pcup_logininfo_tmp partition(data_type = 1) select popt_id, null as sndaid, count(di...

2012-05-18 15:04:00 557

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除