自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(25)
  • 资源 (1)
  • 收藏
  • 关注

转载 map和reduce 个数的设定 (Hive优化)经典

转载自:http://blog.sina.com.cn/s/blog_9f48885501017dua.html 谷腾龙的博客一、   控制hive任务中的map数: 1.   通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,input的文件大小,集群设置的文件块大小(目前为128M, 可在hive中通过set

2016-01-07 10:44:39 436

转载 hive的数据类型和数据模型

转载自:http://www.cnblogs.com/sharpxiajun/archive/2013/06/03/3114560.htmlhive支持两种数据类型:基本和复杂数据类型          基本包括数值型(tinyint/smallint/int/bigint/flout/double)、布尔型(true/false)、字符串型(string)、binary、ti

2015-12-01 15:31:13 830

转载 [陷阱]HIVE外部分区表一定要增加分区

刚开始玩HIVE外部表可能会遇到的小陷阱。         只要我们牢记外部表也是一种表就可以,普通表有分区,外部表也是有分区的。所以如果是基于分区表创建的外部表一定要对外部表执行ALTER TABLE table_name             ADD  PARTITION。否则是根本访问不到数据的。         例子应该会更直观:         原始

2015-11-09 18:16:51 1288

转载 hive的查询注意事项以及优化总结

Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,所以需要去掉原有关系型数据库下开发的一些固有思维。基本原则:1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段select ... from Ajoin Bon

2015-11-09 14:52:18 380

原创 hive错误集锦

1.Total jobs = 1Stage-1 is selected by condition resolver.Launching Job 1 out of 1Number of reduce tasks not specified. Estimated from input data size: 999In order to change the average load

2015-11-09 14:04:19 1628

原创 Hive 表连接

hive表连接需要成转换一个mapreduce的作业提交到hadoop上完成。等值连接(连接条件“=”)不等值连接(连接条件“外连接自连接

2015-11-08 23:08:59 631

转载 Hive QL

自:http://sishuok.com/forum/blogPost/list/0/6227.html 转载第一部分:DDL DDL •建表 •删除表 •修改表结构 •创建/删除视图 •创建数据库 •显示命令 建表 CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name   [(col_

2015-11-06 15:46:02 360

转载 Hive 参数

自:http://sishuok.com/forum/blogPost/list/0/6225.html转载hive.exec.max.created.files •说明:所有hive运行的map与reduce任务可以产生的文件的和 •默认值:100000  hive.exec.dynamic.partition•说明:是否为自动分区 •默认值:

2015-11-06 15:42:52 277

原创 T检验

http://jingyan.baidu.com/article/d621e8da0db4022865913f18.html1.单样本T检验分析—>比较均值—>单样本T检验 适用:单个变量的均值是否与指定常数不同; 场景:如某班级今年期末考试成绩的平均分?=(是否等于)去年考试的平均分提供检验值,即举例中的“平均分”选项设置按分析顺序移除个案:每个T检验均使用对于检验的变量具有有效数据的全部个案

2015-11-05 18:19:09 726

原创 ip,pv,uv

ip,pv,uvPV(页面访问量):即Page View, 即页面浏览量或点击量,用户每次刷新即被计算一次 UV(独立访客/用户数):即Unique Visitor,访问您网站的一台电脑客户端为一个访客。00:00-24:00内相同的客户端只被计算一次。 IP(独立IP/地址来源):即Internet Protocol(网络之间互连的协议)的缩写,中文简称为“网协”,也就是为计算机网络相互连接进

2015-11-05 14:56:15 467

转载 T检验与F检验的区别(通俗理解)

转载自:一抹新绿的博客(新浪)http://blog.sina.com.cn/s/blog_4ee13c2c01016div.html1,T检验和F检验的由来一般而言,为了确定从样本(sample)统计结果推论至总体时所犯错的概率,我们会利用统计学家所开发的一些统计方法,进行统计检定。 通过把所得到的统计检定值,与统计学家建立了一些随机变量的概率分布(probabili

2015-11-02 13:53:44 17139 4

转载 SQL datediff (时间差)

通常,你需要获得当前日期和计算一些其他的日期,例如,你的程序可能需要判断一个月的第一天或者最后一天。你们大部分人大概都知道怎样把日期进行分割(年、月、日等),然后仅仅用分割出来的年、月、日等放在几个函数中计算出自己所需要的日期!  在这篇文章里,我将告诉你如何使用DATEADD和DATEDIFF函数来计算出在你的程序中可能你要用到的一些不同日期。                      

2015-10-30 17:25:31 6522

转载 hive函数参考手册

hive函数参考手册原文见:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+UDF1.内置运算符1.1关系运算符运算符类型说明A = B所有原始类型如果A与B相等,返回TRUE,否则返回FALSEA == B无

2015-10-30 11:16:57 917

转载 hive列转行 (collect_set())

在Hive的是用中,我们经常会有这种需求:按照同一个id进行Group By,然后对另一个字段去重,例如下面得数据:id pic1 1.jpg2 2.jpg1 1.jpg1234idpic1 1.jpg22.jpg1 1.jpg此时,是用DISTINCT

2015-10-22 16:50:07 1683

转载 $()和${}和$(())和(())

$()和${}和$(())和(())转载自:http://www.2cto.com/os/201308/239136.html $()和${}的用法:在 bash shell 中,$( ) 与 ` ` (反引号) 都是用来做命令替换用(command substitution)的。而 $( ) 并不见的每一种 shell 都能使用,若你用 bash2 的话,肯定没问题... 

2015-10-20 14:42:52 340

转载 Hive函数大全

一、关系运算:1. 等值比较: =         语法:A=B         操作类型:所有基本类型         描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE         举例:         hive>select 1 from lxw_dual where 1=1;         12. 不等值比较:          语

2015-10-14 15:41:15 392

转载 hive调优——竖表变横表

转载自:http://gengu.iteye.com/blog/1696577有这这样一张表t_buy_buyer_time_hongbao_asc用户id  次序       购买时间25560   1       1325345254     25560   2       1331043510     25560   3       1331999

2015-10-14 11:24:38 1707

转载 vi的工作模式

Vi有三种基本的工作模式:指令行模式、文本输入模式、行末模式。他们的相互关系如下。指令模式(Command Mode) 下输入 a、i、o进入文本输入模式(Input Mode)文本输入模式(Input Mode) 下按ESC进入指令模式(Command Mode)指令模式(Command Mode)下输入:进入末行模式(Last line Mode)末行模式(Last line

2015-10-13 15:25:39 403

转载 Hive命令学习

转载自express2011的新浪博客:http://blog.sina.com.cn/s/blog_72d544900101f1i8.html一. 显示地展示当前使用的数据库 hive> set hive.cli.print.current.db=true;̶ 切换当前的数据库 hive(default)> USE hduser4801;̶ 使Hive显示列头 set hive.

2015-10-12 18:21:55 949

转载 SQL索引一步到位

SQL索引一步到位(此文章为“数据库性能优化二:数据库表优化”附属文章之一)         以上文章转自:老Key - 博客园http://www.cnblogs.com/AK2012/archive/2013/01/04/2013-0104.html   SQL索引在数据库优化中占有一个非常大的比例, 一个好的索引的设计,可以让你的效率提高几十甚至几百倍,在这里将带你一步步揭开他的

2015-09-29 17:44:30 302

转载 Mysql字符转义

在字符串中,某些序列具有特殊含义。这些序列均用反斜线(‘\’)开始,即所谓的转义字符。MySQL识别下面的转义序列:\0 ASCII 0(NUL)字符。\' 单引号(‘'’)。\" 双引号(‘"’)。\b 退格符。\n 换行符。

2015-09-05 10:54:36 863

转载 mysql函数

一、repeat()函数       用来复制字符串,如下'ab'表示要复制的字符串,2表示复制的份数       mysql> select repeat('ab',2);       | abab           |       又如       mysql> select repeat('a',2);       | aa            |二、SPAC

2015-09-02 17:58:40 375

转载 mysql-concat扩展函数

MySQL中concat_ws函数  使用方法:   CONCAT_WS(separator,str1,str2,...)  CONCAT_WS() 代表 CONCAT With Separator ,是CONCAT()的特殊形式。第一个参数是其它参数的分隔符。分隔符的位置放在要连接的两个字符     串之间。分隔符可以是一个字符串,也可以是其它参数。  注意:  ①.如果

2015-09-02 17:13:46 393

原创 在oracle使用concat函数时需注意

oracle中使用concat,concat只能连接两个字符,而“||”可以连接多个字符。如下用concat时:①.sql>select concat('aa','bb') from test;     concat('aa','bb')     ---------------------     aabb②.sql>select concat('aa','bb

2015-09-02 17:03:48 15829

原创 Concat函数

MySQL concat函数使用方法:CONCAT(str1,str2,…) 返回结果为连接参数产生的字符串。MySQL concat函数可以连接一个或者多个字符串,如mysql> select concat('12');  +--------------+  | concat('12') |  +--------------+  | 12   |  +------------

2015-09-02 16:08:09 1072

Intro to Data Mining (3rd edition).pdf

<数据挖掘介绍与知识概述> 第三版 英文版,数据挖掘的基础介绍

2014-10-28

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除