- 博客(24)
- 资源 (29)
- 收藏
- 关注
转载 MYsql日期和时间函数大汇总
MYsql日期和时间函数 大汇总这里是一个使用日期函数的例子。下面的查询选择了所有记录,其date_col的值是在最后30天以内: mysql SELECT something FROM table WHERE TO_DAYS(NOW()) - TO_DAYS(date_col) = 30; DAYOF MYsql日期和时间函数大汇总这里是一个使用日期函数的例子。下面的查询选择了所有记录
2014-05-21 15:38:11 716
转载 Hive+GenericUDF示例二
再来看一个分数统计的小例子。 在Hive中存在如下一张表:[plain] view plaincopyhive> describe tb_test2; OK name string score_list array> Time taken: 0.074 seconds hive>
2014-05-18 21:37:29 6580 1
转载 Hive+GenericUDF示例一
和UDF相比,通用GDF(GenericUDF)支持复杂类型(比如List,struct等)的输入和输出。 下面来看一个小示例。 Hive中whereme表中包含若干人的行程如下: [plain] view plaincopyA 2013-10-10 8:00:00 h
2014-05-18 21:36:34 11548 2
转载 Hive+UDAF简单示例
在之前的一篇博文中,演示了一个使用通用UDTF来计算总分的小示例,下面用UDAF来做这个工作。 1.编写UDAF。 [java] view plaincopypackage com.wz.udf; import org.apache.hadoop.hive.ql.exec.UDAF; i
2014-05-18 21:05:20 1747
转载 Hive+UDTF简单示例
h UDTF(User-Defined Table-Generating Functions) 用来解决输入一行输出多行(On-to-many maping) 的需求。 我们来看一个简单的例子。 现在有一个名为studentScore.txt的文本,里面的内容如下: A
2014-05-18 20:58:14 4668 2
转载 挖挖Hive的代码(一)——UDF
系列第一篇,先扯扯。Hive的东西太多了,想一篇文章介绍完也是可以的,但是没有意义。所以我会分几篇写下我的“挖掘”经历,当然了,我也没打算把Hive所有的内容都挖一遍,只是记录下我感兴趣的、没见别人挖过的…… Hive对查询语句的解析过程,在淘宝数据平台的官方博客上有几篇文章介绍了,我就跳开这部分关键内容啦。第一篇打算先写最近挖过的UDF。 什么是U
2014-05-18 20:46:08 4534
转载 hive原生和复合类型的数据加载和使用
转载自:http://www.cnblogs.com/ggjucheng/archive/2013/01/31/2868941.html原生类型原生类型包括TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY (Hive 0.8.0以上才可用),TIMESTAMP (Hive 0.8.0以上才可用),这些数
2014-05-18 20:19:01 702
转载 hive UDF(User-Defined-Function) 实战
问题 hive无法按照5分钟对日志分组 方案hive UDF 实现步骤创建UDF:①extends UDF ②重写evaluate方法 Java代码 package com.xxx.udf; import java.math.BigDecimal; import org
2014-05-18 17:04:12 1366
转载 Oracle创建时间维度
SQL Scripts to create Date Dimension in Oracle.Create Table SQL:CREATE TABLE Date_D(DateKey Integer NOT NULL,DateValue Date NOT NULL,Day Char(10 ),DayOfWeek Integer,DayOfMonth Inte
2014-05-16 23:48:58 1820
原创 MS SQL Server 创建时间维度
Simple Steps to create Date Dimension in Microsoft SQL Server.1. Create Two numbers table for sequence/key generation.CREATE TABLE Numbers_Small (Number INT);INSERT INTO Numbers_Small VA
2014-05-16 23:48:02 2813
原创 mysql中创建时间维度
转自:http://www.dwhworld.com/2010/08/date-dimension-sql-scripts-mysql/
2014-05-16 23:47:08 3774
原创 mysql 更改数据存放地址
服务器上的mysql默认数据目录为/var/lib/mysql/,同时服务器的/空间不是很大,而近期又有大量的日志需要导入进行分析,时常搞得/的空间捉襟见肘,晚上一狠心就想把mysql的数据目录转移到另外一块硬盘/data中。于是关闭mysql服务:service mysqld stop转移mysql数据目录mv /var/lib/mysql/ /data/
2014-05-15 21:27:10 963
原创 修改MySql默认编码
安装MySQL之后修改编码方式MySQL的默认编码是Latin1,不支持中文,要支持中午需要把数据库的默认编码修改为gbk或者utf8。1、需要以root用户身份登陆才可以查看数据库编码方式(以root用户身份登陆的命令为:>mysql -u root –p,之后两次输入root用户的密码),查看数据库的编码方式命令为:>show variables like 'cha
2014-05-15 21:26:32 667
转载 hive 之行拆列explode
1、explodeexplode(ARRAY) 列表中的每个元素生成一行explode(MAP) map中每个key-value对,生成一行,key为一列,value为一列限制:1、No other expressions are allowed in SELECT SELECT pageid, explode(adid_list) AS m
2014-05-14 21:25:12 46062 1
原创 JVM性能调优监控工具jps、jstack、jmap、jhat、jstat使用详解
JDK本身提供了很多方便的JVM性能调优监控工具,除了集成式的VisualVM和jConsole外,还有jps、jstack、jmap、jhat、jstat等小巧的工具,本博客希望能起抛砖引玉之用,让大家能开始对JVM性能调优的常用工具有所了解。 现实企业级Java开发中,有时候我们会碰到下面这些问题:OutOfMemoryError,内存不足内存泄露
2014-05-08 23:25:08 63293 6
原创 Linux 添加服务详解
软件安装成服务过程详解:service httpd restart由三部分组成service(服务)、httpd(程序名)、restart(相关命令)少一不可service: 是系统已经定义可的。无需更改。默认会查找/etc/init.d/* httpd: 程序名这个是已经确定的。restart: 相关命令,如start 这个是控制程序走向。
2014-05-08 17:55:28 1178
转载 linux下mysql默认安装目录和常用命令
MySQL安装完成后不象SQL Server默认安装在一个目录,它的数据库文件、配置文件和命令文件分别在不同的目录,了解这些目录非常重要,尤其对于Linux的初学者,因为 Linux本身的目录结构就比较复杂,如果搞不清楚MySQL的安装目录那就无从谈起深入学习。 下面就介绍一下这几个目录。 1、数据库目录 /var/lib/mysql/ 2、配置文件 /usr/sha
2014-05-08 17:41:44 814
转载 hive数据导出
很多时候,我们在hive中执行select语句,希望将最终的结果保存到本地文件或者保存到hdfs系统中或者保存到一个新的表中,hive提供了方便的关键词,来实现上面所述的功能。1.将select的结果放到一个的的表格中(首先要用create table创建新的表格) insert overwrite table test select uid,name from test2
2014-05-07 17:52:06 695
原创 Hive-0.5中SerDe概述
一、背景1、当进程在进行远程通信时,彼此可以发送各种类型的数据,无论是什么类型的数据都会以二进制序列的形式在网络上传送。发送方需要把对象转化为字节序列才可在网络上传输,称为对象序列化;接收方则需要把字节序列恢复为对象,称为对象的反序列化。2、Hive的反序列化是对key/value反序列化成hive table的每个列的值。3、Hive可以方便的将数据加载到表中而不需要对数据进行转
2014-05-05 19:17:39 822
转载 HIVE之Serde和Inspector介绍
Serde是什么:Serde实现数据序列化和反序列化以及提供一个辅助类ObjectInspector帮助使用者访问需要序列化或者反序列化的对象。Serde层构建在数据存储和执行引擎之间,实现数据存储+中间数据存储和执行引擎的解耦。 //主要实现数据的序列化和反序列化。publicabstractclass AbstractSerDe implements SerDe
2014-05-05 12:17:05 1874
转载 Hive中的ObjectInspector设计
ObjectInspector是Hive中一个咋一看比较令人困惑的概念,当初读Hive源代码时,花了很长时间才理解。 当读懂之后,发现ObjectInspector作用相当大,它解耦了数据使用和数据格式,从而提高了代码的复用程度。 简单的说,ObjectInspector接口使得Hive可以不拘泥于一种特定数据格式,使得数据流 1)在输入端和输出端切换不同的输入/输出格式 2)在不同的Oper
2014-05-05 12:16:01 847
转载 HIVE 处理日志,自定义inputformat 完整版
网上找了很多材料都是写了部份代码的,今天在峰哥的帮助下实现了此功能。为何要设置此功能是由于 hive fields terminated by '||||' 不支持 字符串导致将你的inputformat类打成jar包,如MyInputFormat.jar将MyInputFormat.jar放到 hive/lib里,然后就可以建表了假设你的input
2014-05-05 11:59:35 3240
原创 批量部署ssh认证
我想,当搭建hadoop集群的时候大家都会碰到一个问题,手动配置ssh双向认证,当集群规模很小时候还能忍受,但是假如配置几十台乃至上百台节点的时候难道也要手动配置吗? 所以推荐用脚本来批量解决这个问题,网络上有不少相关解答,但都不太好用,在此从新记录下。 1,安装所需要的rpm包,tcl-8.4.13-3.ML5.x86_64.rpm,expect-5.43.0
2014-05-04 22:22:33 1079
转载 linux expect, spawn用法小记
使用expect实现自动登录的脚本,网上有很多,可是都没有一个明白的说明,初学者一般都是照抄、收藏。可是为什么要这么写却不知其然。本文用一个最短的例子说明脚本的原理。 脚本代码如下: ############################################## #!/usr/bin/expect set timeout 30 spawn ss
2014-05-04 20:57:24 5265
rpmbuild-demo工程
2015-01-21
Weka源代码详细分析系列
2012-05-08
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人