自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(52)
  • 收藏
  • 关注

转载 Hive调优(语法与参数层面优化)

转:http://blog.csdn.net/scgaliguodong123_/article/details/45477323版权声明:本文为博主原创文章,未经博主允许不得转载。一、简介 作为企业Hadoop应用的核心产品,Hive承载着FaceBook、淘宝等大佬 95%以上的离线统计,很多企业里的离线统计甚至全由Hive完成,如我所在的电

2016-10-31 18:52:49 204

转载 深入浅出数据仓库中SQL性能优化之Hive篇

转:http://www.csdn.net/article/2015-01-13/2823530摘要:Hive查询生成多个map reduce job,一个map reduce job又有map,reduce,spill,shuffle,sort等多个阶段,所以针对hive查询的优化可以大致分为针对MR中单个步骤的优化,针对MR全局的优化以及针对整个查询的优化。一个

2016-10-31 18:48:56 363

转载 一个超长SQL语句的规范书写格式范例.

转:http://blog.csdn.net/only_endure/article/details/4020708版权声明:本文为博主原创文章,未经博主允许不得转载。[c-sharp] view plain copyselect f.*, g.trueworkload    from (select a.us

2016-10-31 18:43:20 940

转载 java 取出某个字符出现的最后一次

转:http://zhidao.baidu.com/link?url=nENVzcu4Qo19v0zgTKcvCoYLGBe69V7KvqoxuhorCY13JG1Z04RnLFd2LZivLE7tRfDsezm1E433IBb4TKEedq例如在字符串"fsjakhdsjkahfjkdshalfhdsahjfhdsalfjds"中如何判断f最后出现的位置是什么。那么我

2016-10-29 14:29:05 1631

转载 在linux系统如何grep过滤中,不包含某些字符串的命令

转:http://www.dutycode.com/linux_grep_bubaohan.html文章系转载,亲测可用(转载自:http://www.itokit.com/2014/0105/75018.html)grep命令应该是我们在获取字符串内容时,或读取文件时,进行分析的好命令,但是有时候针对一些字符,我们想排除掉某些字符。怎么办呢?

2016-10-29 14:28:35 99306 1

转载 hive中order by,sort by, distribute by, cluster by作用以及用法

转:http://blog.csdn.net/jthink_/article/details/38903775版权声明:本文为博主原创文章,未经博主允许不得转载。目录(?)[+]1. order by    Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有h

2016-10-29 14:24:51 205

转载 Hive 设置map 和 reduce 的个数

转:http://blog.csdn.net/lifuxiangcaohui/article/details/50267023版权声明:本文为博主原创文章,未经博主允许不得转载。一、    控制hive任务中的map数: 1.    通常情况下,作业会通过input的目录产生一个或者多个map任务。 主要的决定因素有: input的文件总个数,i

2016-10-29 14:24:27 293

转载 hive原生和复合类型的数据加载和使用

转:http://blog.csdn.net/oopsoom/article/details/26001307原生类型原生类型包括TINYINT,SMALLINT,INT,BIGINT,BOOLEAN,FLOAT,DOUBLE,STRING,BINARY (Hive 0.8.0以上才可用),TIMESTAMP (Hive 0.8.0以上才可用),这些数据加载很容易,只要设置好列

2016-10-29 12:37:01 192

转载 Lateral View用法 与 Hive UDTF explode

转:http://blog.csdn.net/oopsoom/article/details/26001307Lateral View是Hive中提供给UDTF的conjunction,它可以解决UDTF不能添加额外的select列的问题。1. Why we need Lateral View?当我们想对hive表中某一列进行split之后,想对其转换成1 to N

2016-10-29 12:35:51 510

转载 LanguageManual LateralView

转:https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralViewSkip to end of metadataCreated by Confluence Administrator, last modified byLars Francke onDec 20, 2013

2016-10-25 11:51:43 300

转载 HIVE lateral view

转:http://yugouai.iteye.com/blog/1849902Lateral View语法Sql代码  lateralView: LATERAL VIEW udtf(expression) tableAlias AS columnAlias (',' columnAlias)*  fromClause: FROM base

2016-10-25 11:46:08 212

转载 【Kylin实战】Hive复杂数据类型与视图

转:http://www.cnblogs.com/en-heng/p/5443480.html1. 引言在分析广告日志时,会有这样的多维分析需求:曝光、点击用户分别有多少?标签能覆盖多少广告用户?各个标签(标注)类别能覆盖的曝光、点击在各个DSP上所覆盖的用户数……广告数据与标签数据join之后,存储orc file的schema如下

2016-10-25 11:45:00 1810

转载 关于Hive中的复杂数据类型Array,Map,Structs的一些使用案例

转:http://blog.csdn.net/gamer_gyt/article/details/52169441版权声明:目录(?)[+]写在前边的话1Array     1创建表    2查看array的元素   3内嵌查询及统计     4如何保存查询结果2Map     1创建表     2普通查看表数据    3使用expl

2016-10-25 11:42:54 357

转载 求sql语句 想要输出 姓名相同,身份证号码不同的记录

转:http://zhidao.baidu.com/question/514355321.htmlSELECT姓名,COUNT ( DISTINCT 身份证号码 ) 身份证数量FROM表GROUP BY姓名HAVING COUNT ( DISTINCT 身份证号码 ) > 1

2016-10-24 20:50:40 5522

转载 linux命令怎么显示文件某一行或几行内容

转:http://zhidao.baidu.com/link?url=3sUuIRmealK3blfXj6NJIPKlUDBWW8JPeoXZvPHsN4pmsqjwFKT3-aNSVwqhxME__INqqxU-qmJMd-eVxgtHiWX5jarcpA0YUwEKN1yYHhe使用sed命令;具体查看使用规则:#sed --help;显示文件X行命令:#s

2016-10-22 21:49:06 16821 1

转载 Java中的return语句使用总结

转:http://lavasoft.blog.51cto.com/62575/53251/Java中的return语句使用总结 Java中的return语句总是和方法有密切关系,return语句总是用在方法中,有两个作用,一个是返回方法指定类型的值(这个值总是确定的),一个是结束方法的执行(仅仅一个return语句)。 在return语句的各类文章中,大多仅仅介绍了retu

2016-10-22 21:48:14 356

转载 Linux shell, 如何检查同一行中同时存在两个指定字串?

转:http://zhidao.baidu.com/link?url=RIlRhZpctu3I6ll8xfl9iuC3C_RORlj--NfJpEeORcR9AI94iOxnsVgQFSYVziIXznnmr__UysGrVTLHShbHdQfCzSuJLCzzeJzNAtRz97e比如文件里有下面一行(不确定第几行), 只有检查到文件里某一行同时存在 "XYZD" 和“A

2016-10-20 17:43:18 4723

转载 Linux/UNIX下使用ssh-keygen设置SSH无密码登录

转:http://blog.csdn.net/leexide/article/details/17252369一、SSH简介    SSH是一个专为远程登录会话和其他网络服务提供安全性的协议。默认状态下SSH链接是需要密码认证的,可以通过添加系统认证(即公钥-私钥)的修改,修改后系统间切换可以避免密码输入和SSH认证。二、公钥认证的基本思想:    对信息的加密和解密采用不同的ke

2016-10-18 14:41:26 703

转载 SSH原理之图文详解

转:http://forlinux.blog.51cto.com/8001278/1352900  本文是自己参考了一些文章和进行了一些实践总结而成,并不一定就是完全是对,有什么不对地方希望大家指出我们共同探讨.目录:       一.Telnet和SSH       二.SSH验证原理详解       三.SSH配置选项详解       四.常见SSH问题

2016-10-18 14:40:20 419

转载 xargs用法

转:http://blog.csdn.net/yhcharles/article/details/44875865 为啥要xargs?通常Linux命令可以用|首尾相连,上一个命令的 stdout 连接到下一个命令的 stdin。但是有些命令,比如ls、rm等,是从命令行参数接受输入的。这时候如果想把上一个命令的输出传给它们,就不好办了。所以就有了xargs。简单而言,xargs可

2016-10-16 13:49:55 194

转载 Xargs用法详解(原创)

转:http://czmmiao.iteye.com/blog/1949225 简介之所以能用到这个命令,关键是由于很多命令不支持|管道来传递参数,而日常工作中有有这个必要,所以就有了xargs命令,例如:这个命令是错误的find /sbin -perm +700 |ls -l这样才是正确的find /sbin -perm +700 |xargs ls -l  

2016-10-16 13:49:06 388

转载 【亲测好用!】shell的split生成的文件按规律命名及添加扩展名

转:http://seofangfa.com/shell/shell-split.html shell下的split命令主要用于分割一些大文件用的,比如经常要用到将一个几十万行的TXT分割为多少行一个的文件,非常有用,唯一坑爹的是,切割后的文件不能自动添加扩展名和按规律命名,刚找到一个还算不错的示例,算是解决了分割后命名无规律的问题,记录如下。---------------2015

2016-10-16 13:48:19 14242

转载 Linux之split命令详解

转:http://www.jb51.net/article/73632.htm Linux split命令用于将一个文件分割成数个,该指令将大文件分割成较小的文件,在默认情况下将按照每1000行切割成一个小文件,其基本语法是split [--help][--version][-][-b ][-C ][-l ][要切割的文件][输出文件名]。  命令功能:切割文件

2016-10-16 13:24:33 552

转载 linux split命令参数及用法详解---linux分割文件命令

转:http://www.linuxso.com/command/split.html功能说明:分割文件。Split:按指定的行数截断文件格式: split [-n] file [name]参数说明:-n: 指定截断的每一文件的长度,不指定缺省为1000行file: 要截断的文件name: 截断后产生的文件的文件名的开头字母,不指定,缺省为x,即截断后产

2016-10-16 13:22:43 493

转载 Hadoop问题小记

转:http://write.blog.csdn.net/postedit?ref=toolbar1.使用eclipse开发mapreduce程序,发现是跑在本地(LocalRunnerJob),而不是集群。解决方法:将程序打成jar包,然后使用hadoop命令行运行。打包用Fat jar这个工具将第三方jar包一起发布,不要勾选One-JAR.错误:Exception

2016-10-13 17:19:09 365

转载 单个文件的压缩或解压

转:http://www.aboutyun.com/thread-11070-1-1.html  import java.io.FileInputStream;import java.io.FileOutputStream;import java.io.IOException;import java.io.Inpu

2016-10-13 16:24:09 437

转载 MapReduce: map读取文件的过程

转:http://www.cnblogs.com/silva/p/4490532.html我们的输入文件 hello0, 内容如下:xiaowang 28 shanghai@_@zhangsan 38 beijing@_@someone 100 unknown 逻辑上有3条记录, 它们以@_@分隔. 我们看看数据是如何被map读取的...

2016-10-13 16:20:13 452

转载 HDFS中的压缩与解压缩机制

转:http://blog.csdn.net/u011491148/article/details/9966369概述我们可以把数据文件压缩后再存入HDFS,以节省存储空间。但是,在使用MapReduce处理压缩文件时,必须考虑压缩文件的可分割性。目前,Hadoop支持以下几种压缩格式压缩格式UNIX工具算      法文件扩展名支持

2016-10-13 14:58:59 5213

转载 CDH5.2的Maven依赖

转:http://www.th7.cn/Program/Java/201411/316694.shtml之前一直结合Maven开发Hadoop2.2.0的程序,环境换成CDH5.2后报错,发现是Maven依赖库的问题。之前一直使用http://mvnrepository.com/查找maven依赖,但这类网站只能查到通用的maven依赖,没有包含CD

2016-10-13 14:57:05 908

转载 原 Hive 中的复合数据结构简介以及一些函数的用法说明

转:https://my.oschina.net/leejun2005/blog/120463目前 hive 支持的复合数据类型有以下几种:map(key1, value1, key2, value2, ...) Creates a map with the given key/value pairsstruct  (val1, val2, val3, ...) C

2016-10-12 18:50:29 633

转载 HIVE UDF整理:复杂类型长度统计函数,类型转换函数,日期函数

转:http://blog.sina.com.cn/s/blog_81e6c30b0101bu5a.html复杂类型长度统计函数(1)Map类型长度函数: size(Map)语法: size(Map)返回值: int说明: 返回map类型的长度举例:hive> select size(map(’100′,’tom’,’101′,’mary’))

2016-10-12 16:58:49 676

转载 自定义MapReduce的InputFormat,提取指定开始与结束限定符间的内容

转:http://blog.csdn.net/kent7306/article/details/49443899一、需求:在编写MapReduce程序时,常用的TextInputFormat是以换行符作为Record分隔符的,即该行的内容作为MapReduce中map方法中的value,而该行头在文件中的偏移值作为key。但是在实际应用中,我们在提取日志内容时,有可能遇

2016-10-12 15:43:49 757

转载 自定义 hadoop MapReduce InputFormat 切分输入文件

转:https://my.oschina.net/leejun2005/blog/133424在上一篇中,我们实现了按 cookieId 和 time 进行二次排序,现在又有新问题:假如我需要按 cookieId 和 cookieId&time 的组合进行分析呢?此时最好的办法是自定义 InputFormat,让 mapreduce 一次读取一个 cookieId 下的所有

2016-10-12 15:37:01 325

转载 hadoop拾遗(一)---- 避免切分map文件

转:http://www.cnblogs.com/nocml/p/3292903.html  有些程序可能不希望文件被切分,而是用一个mapper完整处理每一个输入文件。例如,检查一个文件中所有记录是否有序,一个简单的方法是顺序扫描第一条记录并并比较后一条记录是否比前一条要小。如果将它实现为一个map任务,那么只有一个map操作整个文件时,这个算法才可行。  有二种办法可以

2016-10-12 15:27:24 1050

转载 [Hadoop源码详解]之一MapReduce篇之InputFormat

转:http://www.cnblogs.com/shitouer/archive/2013/02/28/hadoop-source-code-analyse-mapreduce-inputformat.html1. 概述我们在设置MapReduce输入格式的时候,会调用这样一条语句:1job.setInputFo

2016-10-11 17:00:09 234

转载 hadoop中mapreducer的数据输入(InputFormat)原理详解

转:http://blog.csdn.net/qj19842011/article/details/40632241查看了hadoop 的源代码,终于搞明白MapReducer作业的数据输入原理,成果如下:Hadoop中MapReducer的作业的输入通过InputFormat接口提供;InputFormat提供的功能如下:将输入的文件,分成逻辑上的切片InputS

2016-10-11 15:50:44 426

转载 Ajax实例讲解与技术原理

转:http://blog.csdn.net/evankaka/article/details/46896943 林炳文Evankaka原创作品。转载请注明出处http://blog.csdn.net/evankaka         摘要:AJAX即“Asynchronous JavaScript And XML”(异步JavaScript和XML),是指一种创建交互式网

2016-10-10 14:46:48 872

转载 spring mvc 和ajax异步交互完整实例

转:http://blog.csdn.net/zhujianli1314/article/details/43193183spring MVC 异步交互demo:1.jsp页面:[java] view plain copy print?"java" contentType="text/html; charset=utf-8"      p

2016-10-10 14:42:37 1520

转载 grep正则表达式查找特定ip地址的方法

转:http://www.ahlinux.com/start/cmd/427.htmllinux下文件查找,没有grep命令是不行的。在grep命令中使用正则表达式从一个文件中匹配到特定的IP地址。相关阅读: 网络IP地址是如何分类的 电脑入门网络知识之IP地址小常识以下正则表达式将会匹配IPV4的地址。正则表达式匹配IP地址:使用以下正则表达式

2016-10-10 10:16:33 20661 1

转载 hadoop之MapReduce输入(split)输出

转:http://www.cnblogs.com/Leo_wl/archive/2013/04/25/3042650.htmlSplit分割在执行mapreduce之前,原始数据被分割成若干split,每个split作为一个map任务的输入,在map执行过程中split会被分解成一个个记录(key-value对),map会依次处理每一个记录。(Key:偏移量,不是行数)

2016-10-09 14:03:41 294

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除