自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

当法律与事业相遇

当法律与事业相遇

  • 博客(11)
  • 资源 (1)
  • 收藏
  • 关注

原创 02-shell文本处理三剑客之sed

sed 是流编辑器,但是它不会修改源文件。sed (流文本编辑器) 用法:sed OPTIONS… [SCRIPT] [INPUTFILE…] -r: 使用扩展的正则表达式; -n, –quiet, –silent: 不输出模式空间的内容; -i:直接编辑原文件; -e: -e ” -e ” -e ”

2016-06-07 13:37:02 1432

原创 01-shell文本处理三剑客之grep

开篇:哈喽,今天我想写写shell编程,打算平均一天一篇吧,这样一个月后就可以进步比较多。 先从shell文本处理三剑客grep、sed、awk开始。听说啊,要是我不会这个命令,就不好意思说自己会shell编程。1 grep是什么意思?grep: Global search REgular expression and Print out the line. 文本搜索工具,根据用户指定的“模式(

2016-06-07 10:04:42 3641 2

原创 09-Hive查询操作Distributed by 和sort by

声明: 哈喽,大家好,我是谢老师。 今天来学习的是Distributed by 和sort by语法。首先还是要来回顾一下上一讲所学的join和mapjoin操作。mapjoin会比join快很多,数据量很小的时候优势不明显,数据量很大的时候就快很多了。mapjoin其实就是join的优化。很多人都说Hive语法很简单,跟写sql语句差不多,但是hive优化就比较难了,这一点我也感觉到了。 那

2016-06-06 21:57:42 15393

原创 08-Hive高级查询join

声明:我的朋友,这一篇不要转载,因为你可以直接在这里看。大家好,我们今天来学习Hive高级查询join语法。你有没有期待把Hive学完整?我打算写完整,只要我知道。我写的都是比较接地气的,因为高大上的我知道的少。砸门一起加油进步吧!1 我们先回顾一下上一节课说的。上一节我们知道了:order by是一个全局的操作,groupby是一个聚合的操作。避免数据倾斜的方法之一是设置参数:hive.group

2016-06-06 21:06:16 1408

原创 07-Hive高级查询order by、group by

声明:未经本人允许,不得转载哦!哈喽,大家好。这两天就要高考了,我原本是一名物理老师,这一届初高中的学生带完,估计就要开始找大数据岗位的工作了。目前掌握的是技能有java+linux++mysql+hadoop+hive+hbase,正在学习的是shell,计划2016年接着要学习的是scala+spark。祝我好运吧。今天我们一起来学习的是【Hive高级查询group、order语法】。话不多说,

2016-06-06 18:16:35 11000 3

原创 06-Hive表属性操作

大家好!砸门又又又又见面了。我再自我介绍一下哈,我长得比较帅,帅到哭的那种。 呵呵,开玩笑。这世界上,唯独美人和大数据不可辜负。好好学大数据技术,技多不压身。越学人就越帅,你说是吧?言归正传,今天要做的实验是Hive表属性操作。 表属性有啥?表名称、增加列,修改列呀!修改表名alter table table_name rename to new_table_name;修改列名alter tab

2016-06-02 22:19:38 7447

原创 05-Hive动态分区

大家好!砸门又见面了。我先作一个自我介绍吧。我是一个打算学习大数据一万小时的谢老师,目前学习了800多小时了,现在正在努力。 今天来玩的实验是:Hive分区表的动态分区分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围,从而提高速度。分区分为两种:静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于导入数据时,是手动输入

2016-06-02 20:57:54 1767

原创 04-Hive数据导出

大家好!砸门又见面了。今天来玩一下Hive数据导出。 导出的方式有以下几种 1)hadoop命令的方式 get text 2)通过insert…directory方式insert overwrite[local] directory '/tmp/ca employees'[row format delimited fields terminated by '\t']se

2016-06-02 17:44:57 951 1

原创 03-Hive数据加载的几种方式

声明:前面两篇文章已经知道了如何创建表 现在我们来学习Hive数据加载不得不说一个知识点:hive -help、hive –help 、 hive –service -help[root@hadoop1 host]# hive -helpusage: hive -d,--define <key=value> Variable subsitution to apply to

2016-06-02 17:11:36 8658

原创 02-Hive一个表创建另一个表,表分区,分桶

声明:如果你是初学者,看我这篇文章的时候,看我上一篇会更好。 Hive表的创建:http://blog.csdn.net/qq_29622761/article/details/51564680这篇的主要内容目录是:由一个表创建另一个表hive不同文件读取对比hive分区表hive分桶你现在开始吧! 1. 由一个表创建另一个表 格式:ceate table test3 like te

2016-06-02 12:32:07 13840 2

原创 01-Hive创建表

声明:本实验环境是Apache hadoop-2.2.0,zookeeper-3.4.5,mysql Server version: 5.1.73作为元数据库,hive版本是apache-hive-0.9.0-bin,都是apache,不是CDH和其他。本实验集群3台,一个主节点(hadoop1),三个从节点(hadoop1,hadoop2,hadoop3),zk在三个节点中都安装。本实验的数据都是

2016-06-02 10:48:37 20519 1

学校信息_2020-03-30.xls

爬取的学校信息数据,有小学的和中学的,如果需要其他的也可以联系我。这个是我的爬虫脚本的结果。

2020-03-30

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除