自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 HIVE Streaming小结

HIVE中的查询可以结合使用非java语言的脚本(比如shell、python、perl等),达到另一种处理数据的方式。下面通过自己亲自实践的测试程序说明Streaming的常见用法:(1)恒等变换(2)改变类型(3)投影变换(4)操作转换(5)使用分布式内存(6)CLUSTER BY、DISTRIBUTE BY、SORT BY(7)计算cogroupStreaming HIVE是通过...

2018-04-29 16:19:23 4196 1

原创 一个简单的UDF小程序(HIVE)

一个运行于HIVE的简单的UDF程序,可以作为对UDF的一个简单的入门,你自己也可以很容易的亲自实践。主要包括以下步骤: 在hive中建一个测试用例表、编辑UDF的java程序、HIVE中添加JAR包并创建UDF临时函数(1)在hive中建一个测试用例表(当然如果你已经有合适的数据可以跳过这一步)create table littlebigdata(name string,email str...

2018-04-27 19:42:16 2283

原创 spark 基于分区操作 mapPartitions

基于分区对数据进行操作可以让我们避免为每个数据元素进行重复的配置工作。诸如打开数据库连接或者创建随机生成数等操作,都是我们应当避免的为每个元素都配置一遍的工作。Spark提供基于分区的map和foreach,让你的部分代码只对RDD的每个分区运行一次,这样可以帮助降低这些操作的代价。当基于分区操作RDD时,Spark会为函数提供该分区中的元素的迭代器。返回值方面,也返回一个迭代器。Spark 提供...

2018-04-10 18:09:05 8028

翻译 动手实现第一个Hadoop程序的扩展

上篇文章简单总结了一下,在独立模式下实现测试第一个MapReduce程序,下面算是对上篇文章的一个补充吧。主要 分为  Hadoop横向扩展、combiner函数、Hadoop Streaming 三个部分。1 Hadoop横向扩展    前面介绍了 MapReduce针对少量数据是如何工作的,当我们有大量的输入数据流时,为了实现横向扩展,我们需要把数据存储在分布式分拣系统中(典型的是HDFS),...

2018-03-28 16:20:32 456

原创 动手实现第一个Hadoop程序(VMware)

测试Hadoop环境:版本 2.6.0 本篇文章主要侧重于亲自实践一个Mapreduce程序在Hadoop上运行,如果需要详细了解测试用到的MapReduce程序的详细内  容,建议翻阅《HADOOP权威指南》。 第一步:确保HADOOP环境已经搭建成功              HADOOP环境的搭建不是本篇的重点,实际上独立(或本地)模式的环境还是比较好搭建的,可以用如下命令测试:hadoop...

2018-03-27 22:58:08 309

原创 HIVE时间函数小结

最近使用HIVE时,经常遇到一些对时间字段进行处理的情况。所以总结了一下HIVE中时间函数,可能不是特别全面,仅供大家交流参考。直至上传这篇小结时,还没有找到处理月份加减的函数,类似ORICLE中的ADD_MONTHS函数,如果你有好的方法,也请多多交流哦。个人之前看了很多有关这方面的总结或者文章,都是以纯文字的方式展现,希望这篇小结可以加深你的印象。关于函数的具体用法,则不是这篇小结的重

2017-11-26 19:19:54 604

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除