lvmargrete-CSDN博客

转载 map和reduce 个数的设定（Hive优化）经典

转载自：http://blog.sina.com.cn/s/blog_9f48885501017dua.html 谷腾龙的博客一、控制hive任务中的map数: 1. 通常情况下，作业会通过input的目录产生一个或者多个map任务。主要的决定因素有： input的文件总个数，input的文件大小，集群设置的文件块大小(目前为128M, 可在hive中通过set

2016-01-07 10:44:39 482

转载 hive的数据类型和数据模型

转载自：http://www.cnblogs.com/sharpxiajun/archive/2013/06/03/3114560.htmlhive支持两种数据类型：基本和复杂数据类型基本包括数值型（tinyint/smallint/int/bigint/flout/double）、布尔型（true/false）、字符串型（string）、binary、ti

2015-12-01 15:31:13 886

转载 [陷阱]HIVE外部分区表一定要增加分区

刚开始玩HIVE外部表可能会遇到的小陷阱。只要我们牢记外部表也是一种表就可以，普通表有分区，外部表也是有分区的。所以如果是基于分区表创建的外部表一定要对外部表执行ALTER TABLE table_name ADD PARTITION。否则是根本访问不到数据的。例子应该会更直观：原始

2015-11-09 18:16:51 1359

转载 hive的查询注意事项以及优化总结

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql，和传统关系型数据库有区别，所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则：1：尽量尽早地过滤数据，减少每个阶段的数据量,对于分区表要加分区，同时只选择需要使用到的字段select ... from Ajoin Bon

2015-11-09 14:52:18 440

原创 hive错误集锦

1.Total jobs = 1Stage-1 is selected by condition resolver.Launching Job 1 out of 1Number of reduce tasks not specified. Estimated from input data size: 999In order to change the average load

2015-11-09 14:04:19 1764

原创 Hive 表连接

hive表连接需要成转换一个mapreduce的作业提交到hadoop上完成。等值连接（连接条件“=”）不等值连接（连接条件“外连接自连接

2015-11-08 23:08:59 719

转载 Hive QL

自：http://sishuok.com/forum/blogPost/list/0/6227.html 转载第一部分：ＤＤＬ DDL •建表 •删除表 •修改表结构 •创建／删除视图 •创建数据库 •显示命令建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name [(col_

2015-11-06 15:46:02 388

转载 Hive 参数

自：http://sishuok.com/forum/blogPost/list/0/6225.html转载hive.exec.max.created.files •说明：所有hive运行的map与reduce任务可以产生的文件的和 •默认值:100000 hive.exec.dynamic.partition•说明：是否为自动分区 •默认值：

2015-11-06 15:42:52 331

原创 T检验

http://jingyan.baidu.com/article/d621e8da0db4022865913f18.html1.单样本T检验分析—>比较均值—>单样本T检验适用：单个变量的均值是否与指定常数不同；场景：如某班级今年期末考试成绩的平均分？=(是否等于)去年考试的平均分提供检验值，即举例中的“平均分”选项设置按分析顺序移除个案：每个T检验均使用对于检验的变量具有有效数据的全部个案

2015-11-05 18:19:09 823

原创 ip,pv,uv

ip,pv,uvPV(页面访问量)：即Page View, 即页面浏览量或点击量，用户每次刷新即被计算一次 UV(独立访客/用户数)：即Unique Visitor,访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只被计算一次。 IP(独立IP/地址来源)：即Internet Protocol（网络之间互连的协议）的缩写，中文简称为“网协”,也就是为计算机网络相互连接进

2015-11-05 14:56:15 579

转载 T检验与F检验的区别（通俗理解）

转载自：一抹新绿的博客（新浪）http://blog.sina.com.cn/s/blog_4ee13c2c01016div.html1，T检验和F检验的由来一般而言，为了确定从样本(sample)统计结果推论至总体时所犯错的概率，我们会利用统计学家所开发的一些统计方法，进行统计检定。通过把所得到的统计检定值，与统计学家建立了一些随机变量的概率分布(probabili

2015-11-02 13:53:44 19464 5

转载 SQL datediff （时间差）

通常，你需要获得当前日期和计算一些其他的日期，例如，你的程序可能需要判断一个月的第一天或者最后一天。你们大部分人大概都知道怎样把日期进行分割（年、月、日等），然后仅仅用分割出来的年、月、日等放在几个函数中计算出自己所需要的日期！　　在这篇文章里，我将告诉你如何使用DATEADD和DATEDIFF函数来计算出在你的程序中可能你要用到的一些不同日期。

2015-10-30 17:25:31 6640

转载 hive函数参考手册

hive函数参考手册原文见：https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无

2015-10-30 11:16:57 955

转载 hive列转行（collect_set()）

在Hive的是用中，我们经常会有这种需求：按照同一个id进行Ｇroup By，然后对另一个字段去重，例如下面得数据：id pic1 1.jpg2 2.jpg1 1.jpg1234idpic1 1.jpg22.jpg1 1.jpg此时，是用DISTINCT

2015-10-22 16:50:07 1765

转载 $()和${}和$(())和(())

$()和${}和$(())和(())转载自：http://www.2cto.com/os/201308/239136.html $()和${}的用法：在 bash shell 中，$( ) 与 ` ` (反引号) 都是用来做命令替换用(command substitution)的。而 $( ) 并不见的每一种 shell 都能使用，若你用 bash2 的话，肯定没问题...

2015-10-20 14:42:52 396

转载 Hive函数大全

一、关系运算：1. 等值比较: = 语法：A=B 操作类型：所有基本类型描述:如果表达式A与表达式B相等，则为TRUE；否则为FALSE 举例： hive>select 1 from lxw_dual where 1=1; 12. 不等值比较: 语

2015-10-14 15:41:15 460

转载 hive调优——竖表变横表

转载自：http://gengu.iteye.com/blog/1696577有这这样一张表t_buy_buyer_time_hongbao_asc用户id 次序购买时间25560 1 1325345254 25560 2 1331043510 25560 3 1331999

2015-10-14 11:24:38 1791

转载 vi的工作模式

Vi有三种基本的工作模式：指令行模式、文本输入模式、行末模式。他们的相互关系如下。指令模式(Command Mode）下输入 a、i、o进入文本输入模式(Input Mode)文本输入模式(Input Mode) 下按ESC进入指令模式（Command Mode）指令模式(Command Mode）下输入:进入末行模式（Last line Mode）末行模式（Last line

2015-10-13 15:25:39 473

转载 Hive命令学习

转载自express2011的新浪博客：http://blog.sina.com.cn/s/blog_72d544900101f1i8.html一. 显示地展示当前使用的数据库 hive> set hive.cli.print.current.db=true;̶ 切换当前的数据库 hive(default)> USE hduser4801;̶ 使Hive显示列头 set hive.

2015-10-12 18:21:55 1017

转载 SQL索引一步到位

SQL索引一步到位（此文章为“数据库性能优化二：数据库表优化”附属文章之一）以上文章转自：老Key - 博客园http://www.cnblogs.com/AK2012/archive/2013/01/04/2013-0104.html 　　SQL索引在数据库优化中占有一个非常大的比例，一个好的索引的设计，可以让你的效率提高几十甚至几百倍，在这里将带你一步步揭开他的

2015-09-29 17:44:30 344

转载 Mysql字符转义

在字符串中，某些序列具有特殊含义。这些序列均用反斜线(‘\’)开始，即所谓的转义字符。MySQL识别下面的转义序列：\0 ASCII 0(NUL)字符。\' 单引号(‘'’)。\" 双引号(‘"’)。\b 退格符。\n 换行符。

2015-09-05 10:54:36 918

转载 mysql函数

一、repeat()函数用来复制字符串,如下'ab'表示要复制的字符串，2表示复制的份数 mysql> select repeat('ab',2); | abab | 又如 mysql> select repeat('a',2); | aa |二、SPAC

2015-09-02 17:58:40 434

转载 mysql-concat扩展函数

MySQL中concat_ws函数使用方法： CONCAT_WS(separator,str1,str2,...) CONCAT_WS() 代表 CONCAT With Separator ，是CONCAT()的特殊形式。第一个参数是其它参数的分隔符。分隔符的位置放在要连接的两个字符串之间。分隔符可以是一个字符串，也可以是其它参数。注意： ①.如果

2015-09-02 17:13:46 448

原创在oracle使用concat函数时需注意

oracle中使用concat，concat只能连接两个字符，而“||”可以连接多个字符。如下用concat时：①.sql>select concat('aa','bb') from test; concat('aa','bb') --------------------- aabb②.sql>select concat('aa','bb

2015-09-02 17:03:48 15970

原创 Concat函数

MySQL concat函数使用方法：CONCAT(str1,str2,…) 返回结果为连接参数产生的字符串。MySQL concat函数可以连接一个或者多个字符串,如mysql> select concat('12'); +--------------+ | concat('12') | +--------------+ | 12 | +------------

2015-09-02 16:08:09 1142

u014158708的博客