自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

SunWuKong_Hadoop的博客

每天都是战斗,像狼一样战斗。 找准定位,有魄力,有胆识,果断。 岂因环境易而易……

  • 博客(20)
  • 收藏
  • 关注

转载 大数据实时处理实战

随着互联网时代的发展,运营商作为内容传送的管道服务商,在数据领域具有巨大的优势,如何将这些数据转化为价值,越来越被运营商所重视。运营商的大数据具有体量大,种类多的特点,如各类话单、信令等,通常一种话单每天的数据量就有上百亿条。随着业务分析需求对数据处理实时性的要求越来越高,也给我们的大数据处理架构带来了巨大的挑战,参照网络上可查的例子,运用到实际处理架构上,经常会因为实时数据流量大,造成系统运行不...

2018-06-19 16:03:29 1794 2

转载 Sqoop1 详细使用和避坑指南

经过这么几天的折腾,发现 Sqoop1 真的比 Sqoop2 方便好用的多,Sqoop2 坑真是太多了,搞不定。Sqoop1 坑少也稳定,但是零基础使用过程中也是有几点需要注意的。官方下载:Sqoop 官网官方使用文档Sqoop-1.4.6安装部署及详细使用介绍如果像我一样直接用CDH里边自带的话,方便的地方是环境变量什么的不需要我再去配置了,很方便。要检查安装成功没,直接sqo...

2018-06-19 10:54:35 1199

原创 精品博客推荐

1.Storm 点击打开链接2.hadoop 点击打开链接

2018-06-15 17:54:26 273

转载 在Linux中查看所有正在运行的进程

可以使用ps命令。它能显示当前运行中进程的相关信息,包括进程的PID。Linux和UNIX都支持ps命令,显示所有运行中进程的相关信息。ps命令能提供一份当前进程的快照。如果想状态可以自动刷新,可以使用top命令。ps命令输入下面的ps命令,显示所有运行中的进程:1# ps aux | less 其中,-A:显示所有进程a:显示终端中包括其它用户的所有进程x:显示无控制终端的进程任务:查看系统中的...

2018-06-15 16:46:22 4190

转载 JAVA设计模式之单例模式

本文继续介绍23种设计模式系列之单例模式。概念:  java中单例模式是一种常见的设计模式,单例模式的写法有好几种,这里主要介绍三种:懒汉式单例、饿汉式单例、登记式单例。  单例模式有以下特点:  1、单例类只能有一个实例。  2、单例类必须自己创建自己的唯一实例。  3、单例类必须给所有其他对象提供这一实例。  单例模式确保某个类只有一个实例,而且自行实例化并向整个系统提供这个实例。在计算机系统...

2018-06-15 16:43:56 266

原创 hive函数合集

1.数值运算函数取整函数: round指定精度取整函数: round向下取整函数: floor向上取整函数: ceil取随机数函数: rand2.日期函数UNIX时间戳转日期函数: from_unixtime获取当前UNIX时间戳函数: unix_timestamp日期转UNIX时间戳函数: unix_timestamp指定格式日期转UNIX时间戳函数: unix_timestamp日期时间转日期...

2018-06-15 11:24:00 596

转载 HDFS详解

1.       HDFS详解1.1.  分布式文件系统与HDFS1.1.1. 产生背景数据量越来越多,在一个操作系统管辖的范围存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,因此迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统,这样分布式文件系统就应运而生。1.1.2. 定义分布式文件系统(Distributed File System...

2018-06-15 11:14:39 874

原创 hive中udf、udaf、udtf开发

    Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景:Hive是基于Hadoop中的MapReduce,提供HQL查询的数据仓库。Hive是一个很开放的系统,很多内容都支持用户定制,包括:a)文件格式:Text File,Sequence Fileb)内存中的数据格式: Java Integer/Stri...

2018-06-15 11:04:11 805

转载 linklist和ArrayList的区别

ArrayList和LinkedList的区别ArrayList和LinkedList是常用的两种存储结构,那么它们有哪些区别呢?这里简单给出一部分。 1、ArrayList和LinkedList可想从名字分析,它们一个是Array(动态数组)的数据结构,一个是Link(链表)的数据结构,此外,它们两个都是对List接口的实现。前者是数组队列,相当于动态数组;后者为双向链表结构,也可当作堆栈、队列...

2018-06-15 10:53:17 5011

转载 python脚本和shell脚本的适用场景

shell 应该属于宏语言,顾名思义是系统的壳,方便与系统交互的在以下情况下,不使用shell,因为shell对此无能为力;如:跨平台,较复杂数学操作(如浮点运算,较精确运算等),图形化界面 GUI,I/O 或socket 接口,多维数组,对效率要求很高等。Python可以调用图形库,可以直接做网络应用,甚至直接嵌入其它语言,跨平台;shell就是和系统结合得比较紧密,其内部数据处理方面,...

2018-06-14 20:23:50 4691 3

转载 hive使用技巧(三)——巧用group by实现去重统计

相关文章推荐:hive使用技巧(一)自动化动态分配表分区及修改hive表字段名称hive使用技巧(二)——共享中间结果集hive使用技巧(三)——巧用group by实现去重统计hive使用技巧(四)——巧用MapJoin解决数据倾斜问题Hive使用技巧(五)—— 一行转多行,多行转一行网站统计中常用的指标,pv ,uv , 独立IP,登录用户等,都涉及去重操作。全年的统计,PV超过100亿以上。...

2018-06-14 18:00:51 2469

转载 impala与hive的比较以及impala的优缺点

Impala相对于Hive所使用的优化技术没有使用MapReduce进行并行计算,虽然MapReduce是非常好的并行计算框架,但它更多的面向批处理模式,而不是面向交互式的SQL执行。与MapReduce相比:Impala把整个查询分成一执行计划树,而不是一连串的MapReduce任务,在分发执行计划后,Impala使用拉式获取数据的方式获取结果,把结果数据组成按执行树流式传递汇集,减少了把中间结...

2018-06-14 15:41:17 2926

转载 数据库中的视图理解和优点介绍

数据库中视图的概念:视图是从一个表或是多个表导出的表,视图与表不同,视图是一个虚表,即视图所对应的数据不进行实际存储,数据库中指存储视图的定义,在对视图的数据进行操作时,系统根据视图的定义去操作与视图相关联的基本表。视图是虚表,是从一个或是几个基本表导出的表。可以将视图看做是移动的窗口,通过它可以看到自己感兴趣的数据,视图是从一个或是多个表中获得的,这些表的数据存放在数据库中,那些用户产生视图的表...

2018-06-14 14:21:18 1032

转载 hive的查询注意事项以及优化总结

一、控制Hive中Map和reduce的数量Hive中的sql查询会生成执行计划,执行计划以MapReduce的方式执行,那么结合数据和集群的大小,map和reduce的数量就会影响到sql执行的效率。除了要控制Hive生成的Job的数量,也要控制map和reduce的数量。1、 map的数量,通常情况下和split的大小有关系,之前写的一篇blog“map和reduce的数量是如何定义的”有描述...

2018-06-14 14:16:33 1014

转载 hive中管理表(内部表)和外部表的区别是什么,及分区表使用场景

⑴区别:①Hive创建内部表时(默认创建内部表),会将数据移动到数据仓库指向的路径;创建外部表(需要加关键字external),仅记录数据所在的路径,不对数据的位置做任何改变;⑵Hive删除表时,内部表的元数据和数据会被一起删除,而外部表只删除元数据,不删除数据; ⑵场景:①外部表:比如某个公司的原始日志数据存放在一个目录中,多个部门对这些原始数据进行分析,那么创建外部表是明智...

2018-06-14 14:13:38 2307

转载 hive中order by, sort by, distribute by, cluster by的用法和区别

1、order by      hive中的order by 和传统sql中的order by 一样,对数据做全局排序,加上排序,会新启动一个job进行排序,会把所有数据放到同一个reduce中进行处理,不管数据多少,不管文件多少,都启用一个reduce进行处理。如果指定了hive.mapred.mode=strict(默认值是nonstrict),这时就必须指定limit来限制输出条数,原因...

2018-06-14 14:00:32 1688

转载 shell脚本中判断上一个命令是否执行成功

 shell脚本中判断上一个命令是否执行成功shell中使用符号“$?”来显示上一条命令执行的返回值,如果为0则代表执行成功,其他表示失败。 结合if-else语句实现判断上一个命令是否执行成功。示例如下:if [ $? -ne 0 ]; then    echo "failed"else    echo "succeed"fi  或者:...

2018-06-13 22:46:35 4069

原创 hadoop大数据工程师、数据开发工程师、数据仓库工程师 面试题目分享

仅限于工作年限1-3年 一、HIVE岗1.order by,distribute by,sortby的区别 点击打开链接2.内部表、外部表的区别及使用场景 点击打开链接3.讲一下hadoop生态圈的组件,说一下你对hadoop的认识程度(需要理解并背下来) 点击打开链接4.join需要注意的地方(hive查询中需要注意的地方及优化方法)  点击打开链接5.视图和表的区别 点...

2018-06-08 11:09:07 5091 9

转载 hive.groupby.skewindata与负载均衡

Group By 语句1.Map 端部分聚合:并不是所有的聚合操作都需要在 Reduce 端完成,很多聚合操作都可以先在 Map 端进行部分聚合,最后在 Reduce 端得出最终结果。基于 Hash参数包括:hive.map.aggr = true 是否在 Map 端进行聚合,默认为 Truehive.groupby.mapaggr.checkinterval = 100000 在 Map 端进行...

2018-06-05 17:07:04 1076

转载 hive 内部表和外部表的区别和理解

1. 内部表create table test (name string , age string) location '/input/table_data'; 注:hive默认创建的是内部表此时,会在hdfs上新建一个test表的数据存放地load data inpath '/input/data' into table test ;会将hdfs上的/input/data目录下的数据转移到...

2018-06-05 13:42:17 668

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除