2018年06月_SunWuKong_Hadoop

转载大数据实时处理实战

随着互联网时代的发展，运营商作为内容传送的管道服务商，在数据领域具有巨大的优势，如何将这些数据转化为价值，越来越被运营商所重视。运营商的大数据具有体量大，种类多的特点，如各类话单、信令等，通常一种话单每天的数据量就有上百亿条。随着业务分析需求对数据处理实时性的要求越来越高，也给我们的大数据处理架构带来了巨大的挑战，参照网络上可查的例子，运用到实际处理架构上，经常会因为实时数据流量大，造成系统运行不...

2018-06-19 16:03:29 1794 2

转载 Sqoop1 详细使用和避坑指南

经过这么几天的折腾，发现 Sqoop1 真的比 Sqoop2 方便好用的多，Sqoop2 坑真是太多了，搞不定。Sqoop1 坑少也稳定，但是零基础使用过程中也是有几点需要注意的。官方下载：Sqoop 官网官方使用文档Sqoop-1.4.6安装部署及详细使用介绍如果像我一样直接用CDH里边自带的话，方便的地方是环境变量什么的不需要我再去配置了，很方便。要检查安装成功没，直接sqo...

2018-06-19 10:54:35 1199

原创精品博客推荐

1.Storm 点击打开链接2.hadoop 点击打开链接

2018-06-15 17:54:26 273

转载在Linux中查看所有正在运行的进程

可以使用ps命令。它能显示当前运行中进程的相关信息，包括进程的PID。Linux和UNIX都支持ps命令，显示所有运行中进程的相关信息。ps命令能提供一份当前进程的快照。如果想状态可以自动刷新，可以使用top命令。ps命令输入下面的ps命令，显示所有运行中的进程：1# ps aux | less　其中，-A：显示所有进程a：显示终端中包括其它用户的所有进程x：显示无控制终端的进程任务：查看系统中的...

2018-06-15 16:46:22 4190

转载 JAVA设计模式之单例模式

本文继续介绍23种设计模式系列之单例模式。概念：　　java中单例模式是一种常见的设计模式，单例模式的写法有好几种，这里主要介绍三种：懒汉式单例、饿汉式单例、登记式单例。　　单例模式有以下特点：　　1、单例类只能有一个实例。　　2、单例类必须自己创建自己的唯一实例。　　3、单例类必须给所有其他对象提供这一实例。　　单例模式确保某个类只有一个实例，而且自行实例化并向整个系统提供这个实例。在计算机系统...

2018-06-15 16:43:56 266

原创 hive函数合集

1.数值运算函数取整函数: round指定精度取整函数: round向下取整函数: floor向上取整函数: ceil取随机数函数: rand2.日期函数UNIX时间戳转日期函数: from_unixtime获取当前UNIX时间戳函数: unix_timestamp日期转UNIX时间戳函数: unix_timestamp指定格式日期转UNIX时间戳函数: unix_timestamp日期时间转日期...

2018-06-15 11:24:00 596

转载 HDFS详解

1. HDFS详解1.1. 分布式文件系统与HDFS1.1.1. 产生背景数据量越来越多，在一个操作系统管辖的范围存不下了，那么就分配到更多的操作系统管理的磁盘中，但是不方便管理和维护，因此迫切需要一种系统来管理多台机器上的文件，这就是分布式文件管理系统，这样分布式文件系统就应运而生。1.1.2. 定义分布式文件系统（Distributed File System...

2018-06-15 11:14:39 874

原创 hive中udf、udaf、udtf开发

Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。一、背景：Hive是基于Hadoop中的MapReduce，提供HQL查询的数据仓库。Hive是一个很开放的系统，很多内容都支持用户定制，包括：a）文件格式：Text File，Sequence Fileb）内存中的数据格式： Java Integer/Stri...

2018-06-15 11:04:11 805

转载 linklist和ArrayList的区别

ArrayList和LinkedList的区别ArrayList和LinkedList是常用的两种存储结构，那么它们有哪些区别呢？这里简单给出一部分。 1、ArrayList和LinkedList可想从名字分析，它们一个是Array(动态数组)的数据结构，一个是Link(链表)的数据结构，此外，它们两个都是对List接口的实现。前者是数组队列，相当于动态数组；后者为双向链表结构，也可当作堆栈、队列...

2018-06-15 10:53:17 5011

转载 python脚本和shell脚本的适用场景

shell 应该属于宏语言，顾名思义是系统的壳，方便与系统交互的在以下情况下，不使用shell，因为shell对此无能为力；如：跨平台，较复杂数学操作（如浮点运算，较精确运算等），图形化界面 GUI,I/O 或socket 接口，多维数组，对效率要求很高等。Python可以调用图形库，可以直接做网络应用，甚至直接嵌入其它语言，跨平台；shell就是和系统结合得比较紧密，其内部数据处理方面，...

2018-06-14 20:23:50 4691 3

转载 hive使用技巧（三）——巧用group by实现去重统计

相关文章推荐：hive使用技巧（一）自动化动态分配表分区及修改hive表字段名称hive使用技巧（二）——共享中间结果集hive使用技巧（三）——巧用group by实现去重统计hive使用技巧（四）——巧用MapJoin解决数据倾斜问题Hive使用技巧（五）—— 一行转多行,多行转一行网站统计中常用的指标，pv ,uv , 独立IP,登录用户等，都涉及去重操作。全年的统计，PV超过100亿以上。...

2018-06-14 18:00:51 2469

转载 impala与hive的比较以及impala的优缺点

Impala相对于Hive所使用的优化技术没有使用MapReduce进行并行计算，虽然MapReduce是非常好的并行计算框架，但它更多的面向批处理模式，而不是面向交互式的SQL执行。与MapReduce相比：Impala把整个查询分成一执行计划树，而不是一连串的MapReduce任务，在分发执行计划后，Impala使用拉式获取数据的方式获取结果，把结果数据组成按执行树流式传递汇集，减少了把中间结...

2018-06-14 15:41:17 2926

转载数据库中的视图理解和优点介绍

数据库中视图的概念：视图是从一个表或是多个表导出的表，视图与表不同，视图是一个虚表，即视图所对应的数据不进行实际存储，数据库中指存储视图的定义，在对视图的数据进行操作时，系统根据视图的定义去操作与视图相关联的基本表。视图是虚表，是从一个或是几个基本表导出的表。可以将视图看做是移动的窗口，通过它可以看到自己感兴趣的数据，视图是从一个或是多个表中获得的，这些表的数据存放在数据库中，那些用户产生视图的表...

2018-06-14 14:21:18 1032

转载 hive的查询注意事项以及优化总结

一、控制Hive中Map和reduce的数量Hive中的sql查询会生成执行计划，执行计划以MapReduce的方式执行，那么结合数据和集群的大小，map和reduce的数量就会影响到sql执行的效率。除了要控制Hive生成的Job的数量，也要控制map和reduce的数量。1、 map的数量，通常情况下和split的大小有关系，之前写的一篇blog“map和reduce的数量是如何定义的”有描述...

2018-06-14 14:16:33 1014

转载 hive中管理表（内部表）和外部表的区别是什么，及分区表使用场景

⑴区别：①Hive创建内部表时（默认创建内部表），会将数据移动到数据仓库指向的路径；创建外部表（需要加关键字external），仅记录数据所在的路径，不对数据的位置做任何改变；⑵Hive删除表时，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据； ⑵场景：①外部表：比如某个公司的原始日志数据存放在一个目录中，多个部门对这些原始数据进行分析，那么创建外部表是明智...

2018-06-14 14:13:38 2307

转载 hive中order by, sort by, distribute by, cluster by的用法和区别

1、order by hive中的order by 和传统sql中的order by 一样，对数据做全局排序，加上排序，会新启动一个job进行排序，会把所有数据放到同一个reduce中进行处理，不管数据多少，不管文件多少，都启用一个reduce进行处理。如果指定了hive.mapred.mode=strict（默认值是nonstrict）,这时就必须指定limit来限制输出条数，原因...

2018-06-14 14:00:32 1688

转载 shell脚本中判断上一个命令是否执行成功

shell脚本中判断上一个命令是否执行成功shell中使用符号“$?”来显示上一条命令执行的返回值，如果为0则代表执行成功，其他表示失败。结合if-else语句实现判断上一个命令是否执行成功。示例如下：if [ $? -ne 0 ]; then echo "failed"else echo "succeed"fi 或者：...

2018-06-13 22:46:35 4069

原创 hadoop大数据工程师、数据开发工程师、数据仓库工程师面试题目分享

仅限于工作年限1-3年一、HIVE岗1.order by,distribute by，sortby的区别点击打开链接2.内部表、外部表的区别及使用场景点击打开链接3.讲一下hadoop生态圈的组件，说一下你对hadoop的认识程度（需要理解并背下来）点击打开链接4.join需要注意的地方(hive查询中需要注意的地方及优化方法) 点击打开链接5.视图和表的区别点...

2018-06-08 11:09:07 5091 9

转载 hive.groupby.skewindata与负载均衡

Group By 语句1.Map 端部分聚合：并不是所有的聚合操作都需要在 Reduce 端完成，很多聚合操作都可以先在 Map 端进行部分聚合，最后在 Reduce 端得出最终结果。基于 Hash参数包括：hive.map.aggr = true 是否在 Map 端进行聚合，默认为 Truehive.groupby.mapaggr.checkinterval = 100000 在 Map 端进行...

2018-06-05 17:07:04 1076

转载 hive 内部表和外部表的区别和理解

1. 内部表create table test (name string , age string) location '/input/table_data'; 注：hive默认创建的是内部表此时，会在hdfs上新建一个test表的数据存放地load data inpath '/input/data' into table test ;会将hdfs上的/input/data目录下的数据转移到...

2018-06-05 13:42:17 668

SunWuKong_Hadoop的博客