2016年06月_当法律与事业相遇

原创 02-shell文本处理三剑客之sed

sed 是流编辑器，但是它不会修改源文件。sed (流文本编辑器) 用法：sed OPTIONS… [SCRIPT] [INPUTFILE…] -r: 使用扩展的正则表达式; -n, –quiet, –silent: 不输出模式空间的内容； -i：直接编辑原文件； -e: -e ” -e ” -e ”

2016-06-07 13:37:02 1432

原创 01-shell文本处理三剑客之grep

开篇：哈喽，今天我想写写shell编程，打算平均一天一篇吧，这样一个月后就可以进步比较多。先从shell文本处理三剑客grep、sed、awk开始。听说啊，要是我不会这个命令，就不好意思说自己会shell编程。1 grep是什么意思？grep: Global search REgular expression and Print out the line. 文本搜索工具，根据用户指定的“模式（

2016-06-07 10:04:42 3641 2

原创 09-Hive查询操作Distributed by 和sort by

声明：哈喽，大家好，我是谢老师。今天来学习的是Distributed by 和sort by语法。首先还是要来回顾一下上一讲所学的join和mapjoin操作。mapjoin会比join快很多，数据量很小的时候优势不明显，数据量很大的时候就快很多了。mapjoin其实就是join的优化。很多人都说Hive语法很简单，跟写sql语句差不多，但是hive优化就比较难了，这一点我也感觉到了。那

2016-06-06 21:57:42 15393

声明：我的朋友，这一篇不要转载，因为你可以直接在这里看。大家好，我们今天来学习Hive高级查询join语法。你有没有期待把Hive学完整？我打算写完整，只要我知道。我写的都是比较接地气的，因为高大上的我知道的少。砸门一起加油进步吧！1 我们先回顾一下上一节课说的。上一节我们知道了：order by是一个全局的操作，groupby是一个聚合的操作。避免数据倾斜的方法之一是设置参数：hive.group

2016-06-06 21:06:16 1408

原创 07-Hive高级查询order by、group by

声明：未经本人允许，不得转载哦！哈喽，大家好。这两天就要高考了，我原本是一名物理老师，这一届初高中的学生带完，估计就要开始找大数据岗位的工作了。目前掌握的是技能有java+linux++mysql+hadoop+hive+hbase，正在学习的是shell,计划2016年接着要学习的是scala+spark。祝我好运吧。今天我们一起来学习的是【Hive高级查询group、order语法】。话不多说，

2016-06-06 18:16:35 11000 3

原创 06-Hive表属性操作

大家好！砸门又又又又见面了。我再自我介绍一下哈，我长得比较帅，帅到哭的那种。呵呵，开玩笑。这世界上，唯独美人和大数据不可辜负。好好学大数据技术，技多不压身。越学人就越帅，你说是吧？言归正传，今天要做的实验是Hive表属性操作。表属性有啥？表名称、增加列，修改列呀！修改表名alter table table_name rename to new_table_name;修改列名alter tab

2016-06-02 22:19:38 7447

原创 05-Hive动态分区

大家好！砸门又见面了。我先作一个自我介绍吧。我是一个打算学习大数据一万小时的谢老师，目前学习了800多小时了，现在正在努力。今天来玩的实验是：Hive分区表的动态分区分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围，从而提高速度。分区分为两种：静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于导入数据时，是手动输入

2016-06-02 20:57:54 1767

原创 04-Hive数据导出

大家好！砸门又见面了。今天来玩一下Hive数据导出。导出的方式有以下几种 1)hadoop命令的方式 get text 2)通过insert…directory方式insert overwrite[local] directory '/tmp/ca employees'[row format delimited fields terminated by '\t']se

2016-06-02 17:44:57 951 1

原创 03-Hive数据加载的几种方式

声明：前面两篇文章已经知道了如何创建表现在我们来学习Hive数据加载不得不说一个知识点：hive -help、hive –help 、 hive –service -help[root@hadoop1 host]# hive -helpusage: hive -d,--define <key=value> Variable subsitution to apply to

2016-06-02 17:11:36 8658

原创 02-Hive一个表创建另一个表，表分区，分桶

声明：如果你是初学者，看我这篇文章的时候，看我上一篇会更好。 Hive表的创建：http://blog.csdn.net/qq_29622761/article/details/51564680这篇的主要内容目录是：由一个表创建另一个表hive不同文件读取对比hive分区表hive分桶你现在开始吧！ 1. 由一个表创建另一个表格式：ceate table test3 like te

2016-06-02 12:32:07 13840 2

原创 01-Hive创建表

声明：本实验环境是Apache hadoop-2.2.0，zookeeper-3.4.5，mysql Server version: 5.1.73作为元数据库，hive版本是apache-hive-0.9.0-bin，都是apache，不是CDH和其他。本实验集群3台，一个主节点(hadoop1)，三个从节点(hadoop1,hadoop2,hadoop3)，zk在三个节点中都安装。本实验的数据都是

2016-06-02 10:48:37 20519 1

当法律与事业相遇