2014年05月_wisgood

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

转载 MYsql日期和时间函数大汇总

MYsql日期和时间函数大汇总这里是一个使用日期函数的例子。下面的查询选择了所有记录，其date_col的值是在最后30天以内： mysql SELECT something FROM table WHERE TO_DAYS(NOW()) - TO_DAYS(date_col) = 30; DAYOF　　MYsql日期和时间函数大汇总这里是一个使用日期函数的例子。下面的查询选择了所有记录

2014-05-21 15:38:11 716

转载 Hive+GenericUDF示例二

再来看一个分数统计的小例子。在Hive中存在如下一张表：[plain] view plaincopyhive> describe tb_test2; OK name string score_list array> Time taken: 0.074 seconds hive>

2014-05-18 21:37:29 6580 1

转载 Hive+GenericUDF示例一

和UDF相比，通用GDF（GenericUDF）支持复杂类型（比如List，struct等）的输入和输出。下面来看一个小示例。 Hive中whereme表中包含若干人的行程如下： [plain] view plaincopyA 2013-10-10 8:00:00 h

2014-05-18 21:36:34 11548 2

转载 Hive+UDAF简单示例

在之前的一篇博文中,演示了一个使用通用UDTF来计算总分的小示例,下面用UDAF来做这个工作。 1.编写UDAF。 [java] view plaincopypackage com.wz.udf; import org.apache.hadoop.hive.ql.exec.UDAF; i

2014-05-18 21:05:20 1747

转载 Hive+UDTF简单示例

h UDTF(User-Defined Table-Generating Functions) 用来解决输入一行输出多行(On-to-many maping) 的需求。我们来看一个简单的例子。现在有一个名为studentScore.txt的文本,里面的内容如下： A

2014-05-18 20:58:14 4668 2

转载挖挖Hive的代码（一）——UDF

系列第一篇，先扯扯。Hive的东西太多了，想一篇文章介绍完也是可以的，但是没有意义。所以我会分几篇写下我的“挖掘”经历，当然了，我也没打算把Hive所有的内容都挖一遍，只是记录下我感兴趣的、没见别人挖过的…… Hive对查询语句的解析过程，在淘宝数据平台的官方博客上有几篇文章介绍了，我就跳开这部分关键内容啦。第一篇打算先写最近挖过的UDF。什么是U

2014-05-18 20:46:08 4534

转载 hive原生和复合类型的数据加载和使用

转载自:http://www.cnblogs.com/ggjucheng/archive/2013/01/31/2868941.html原生类型原生类型包括TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY (Hive 0.8.0以上才可用),TIMESTAMP (Hive 0.8.0以上才可用)，这些数

2014-05-18 20:19:01 702

转载 hive UDF(User-Defined-Function) 实战

问题 hive无法按照5分钟对日志分组方案hive UDF 实现步骤创建UDF：①extends UDF ②重写evaluate方法 Java代码 package com.xxx.udf; import java.math.BigDecimal; import org

2014-05-18 17:04:12 1366

转载 Oracle创建时间维度

SQL Scripts to create Date Dimension in Oracle.Create Table SQL:CREATE TABLE Date_D(DateKey Integer NOT NULL,DateValue Date NOT NULL,Day Char(10 ),DayOfWeek Integer,DayOfMonth Inte

2014-05-16 23:48:58 1820

原创 MS SQL Server 创建时间维度

Simple Steps to create Date Dimension in Microsoft SQL Server.1. Create Two numbers table for sequence/key generation.CREATE TABLE Numbers_Small (Number INT);INSERT INTO Numbers_Small VA

2014-05-16 23:48:02 2813

原创 mysql中创建时间维度

转自：http://www.dwhworld.com/2010/08/date-dimension-sql-scripts-mysql/

2014-05-16 23:47:08 3774

原创 mysql 更改数据存放地址

服务器上的mysql默认数据目录为/var/lib/mysql/，同时服务器的/空间不是很大，而近期又有大量的日志需要导入进行分析，时常搞得/的空间捉襟见肘，晚上一狠心就想把mysql的数据目录转移到另外一块硬盘/data中。于是关闭mysql服务：service mysqld stop转移mysql数据目录mv /var/lib/mysql/ /data/

2014-05-15 21:27:10 963

原创修改MySql默认编码

安装MySQL之后修改编码方式MySQL的默认编码是Latin1，不支持中文，要支持中午需要把数据库的默认编码修改为gbk或者utf8。1、需要以root用户身份登陆才可以查看数据库编码方式(以root用户身份登陆的命令为：>mysql -u root –p,之后两次输入root用户的密码)，查看数据库的编码方式命令为:>show variables like 'cha

2014-05-15 21:26:32 667

转载 hive 之行拆列explode

1、explodeexplode(ARRAY) 列表中的每个元素生成一行explode(MAP) map中每个key-value对，生成一行，key为一列，value为一列限制：1、No other expressions are allowed in SELECT SELECT pageid, explode(adid_list) AS m

2014-05-14 21:25:12 46062 1

原创 JVM性能调优监控工具jps、jstack、jmap、jhat、jstat使用详解

JDK本身提供了很多方便的JVM性能调优监控工具，除了集成式的VisualVM和jConsole外，还有jps、jstack、jmap、jhat、jstat等小巧的工具，本博客希望能起抛砖引玉之用，让大家能开始对JVM性能调优的常用工具有所了解。现实企业级Java开发中，有时候我们会碰到下面这些问题：OutOfMemoryError，内存不足内存泄露

2014-05-08 23:25:08 63293 6

原创 Linux 添加服务详解

软件安装成服务过程详解：service httpd restart由三部分组成service(服务)、httpd（程序名）、restart（相关命令）少一不可service: 是系统已经定义可的。无需更改。默认会查找/etc/init.d/* httpd: 程序名这个是已经确定的。restart: 相关命令，如start 这个是控制程序走向。

2014-05-08 17:55:28 1178

转载 linux下mysql默认安装目录和常用命令

MySQL安装完成后不象SQL Server默认安装在一个目录，它的数据库文件、配置文件和命令文件分别在不同的目录，了解这些目录非常重要，尤其对于Linux的初学者，因为 Linux本身的目录结构就比较复杂，如果搞不清楚MySQL的安装目录那就无从谈起深入学习。下面就介绍一下这几个目录。 1、数据库目录 /var/lib/mysql/ 2、配置文件 /usr/sha

2014-05-08 17:41:44 814

转载 hive数据导出

很多时候，我们在hive中执行select语句，希望将最终的结果保存到本地文件或者保存到hdfs系统中或者保存到一个新的表中，hive提供了方便的关键词，来实现上面所述的功能。1.将select的结果放到一个的的表格中（首先要用create table创建新的表格） insert overwrite table test select uid,name from test2

2014-05-07 17:52:06 695

原创 Hive-0.5中SerDe概述

一、背景1、当进程在进行远程通信时，彼此可以发送各种类型的数据，无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输，称为对象序列化；接收方则需要把字节序列恢复为对象，称为对象的反序列化。2、Hive的反序列化是对key/value反序列化成hive table的每个列的值。3、Hive可以方便的将数据加载到表中而不需要对数据进行转

2014-05-05 19:17:39 822

转载 HIVE之Serde和Inspector介绍

Serde是什么：Serde实现数据序列化和反序列化以及提供一个辅助类ObjectInspector帮助使用者访问需要序列化或者反序列化的对象。Serde层构建在数据存储和执行引擎之间，实现数据存储+中间数据存储和执行引擎的解耦。 //主要实现数据的序列化和反序列化。publicabstractclass AbstractSerDe implements SerDe

2014-05-05 12:17:05 1874

转载 Hive中的ObjectInspector设计

ObjectInspector是Hive中一个咋一看比较令人困惑的概念，当初读Hive源代码时，花了很长时间才理解。当读懂之后，发现ObjectInspector作用相当大，它解耦了数据使用和数据格式，从而提高了代码的复用程度。简单的说，ObjectInspector接口使得Hive可以不拘泥于一种特定数据格式，使得数据流 1）在输入端和输出端切换不同的输入/输出格式 2）在不同的Oper

2014-05-05 12:16:01 847

转载 HIVE 处理日志，自定义inputformat 完整版

网上找了很多材料都是写了部份代码的，今天在峰哥的帮助下实现了此功能。为何要设置此功能是由于 hive fields terminated by '||||' 不支持字符串导致将你的inputformat类打成jar包，如MyInputFormat.jar将MyInputFormat.jar放到 hive/lib里，然后就可以建表了假设你的input

2014-05-05 11:59:35 3240

原创批量部署ssh认证

我想，当搭建hadoop集群的时候大家都会碰到一个问题，手动配置ssh双向认证，当集群规模很小时候还能忍受，但是假如配置几十台乃至上百台节点的时候难道也要手动配置吗？所以推荐用脚本来批量解决这个问题，网络上有不少相关解答，但都不太好用，在此从新记录下。 1，安装所需要的rpm包，tcl-8.4.13-3.ML5.x86_64.rpm，expect-5.43.0

2014-05-04 22:22:33 1079

转载 linux expect, spawn用法小记

使用expect实现自动登录的脚本，网上有很多，可是都没有一个明白的说明，初学者一般都是照抄、收藏。可是为什么要这么写却不知其然。本文用一个最短的例子说明脚本的原理。　　脚本代码如下：　　############################################## 　　#!/usr/bin/expect 　　set timeout 30 　　spawn ss

2014-05-04 20:57:24 5265