BehandTheTime的博客

寻同道之士与君共勉!

开源大数据利器汇总

类别 名称 官网 备注 查询引擎 Phoenix https://phoenix.apache.org/ Salesforce公司出品,Apache HBase之上的一个SQL中间层,完全使用Java编写 Kylin http://kylin.io eBay开源的基于H...

2017-03-06 13:22:29

阅读数 1336

评论数 0

Cascading——针对Hadoop MapReduce的数据处理API

Cascading是一个新式的针对Hadoop clusters的数据处理API,它使用富于表现力的API来构建复杂的处理工作流,而不是直接实现Hadoop MapReduce的算法。 该处理API使开发者可以快速装配复杂的分布式流程,而无需“考虑”MapReduce。同时还可以基于流程...

2017-08-08 09:33:18

阅读数 223

评论数 0

hive数据倾斜总结

本文转载自:http://blog.csdn.NET/lovingprince/article/details/7264549 几个比较特殊的点都提到了,大家可以作为参考。 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。...

2017-06-28 17:08:10

阅读数 351

评论数 0

cascading helloworld 案例

Cascading是一个数据处理的API和查询处理计划,用于定义,共享数据处理工作流,还能在单一计算节点或分布式计算集群上执行数据处理工作流。在单一计算节点,Cascading的本地模式(local mode)可以在部署到集群之前,用于测试代码和处理本地文件。在一个部署了Apache Hadoop...

2017-06-27 14:24:47

阅读数 242

评论数 0

git提交代码到远程服务器

在已有的Git库中搭建新库,并且将本地的git仓库,上传到远程服务器的git库中,从而开始一个新的项目 首先,在本地新建文件夹abc,进入到abc里面,然后git init。这样就在本地初始化了一个git项目abc。 然后,登录到远程的git服务器上,到gitrepo目录下面,mkdir ...

2017-06-26 16:07:13

阅读数 452

评论数 0

Teradata学习笔记

1. LIKE用法 select first_name,last_name from employee where last_name like all('%E%','%S%'); select first_name,last_name from employee where last_nam...

2017-06-23 10:37:49

阅读数 1278

评论数 0

Eclipse 使用技巧之 ---- 查看本类调用和被调用列表

转自:http://tianjun309.iteye.com/blog/854382 当工程复杂的情况下,用眼睛去人工查看调用情况是很费力也没必要的。我们需要用 Eclipse 来做这点。 (1)    我们查看本类调用他类情况可以直接看 import 。 (2)    如果要查...

2017-06-22 10:13:28

阅读数 220

评论数 0

Linux执行crontab脚本出错

Linux下用crontab执行定时任务不会缺省的从用户profile文件中读取环境变量参数,经常导致在手工执行某个 脚本时是成功的,但是到crontab中试图让它定期执行时就是会出错。这是因为用户登陆Linux操作系统的时候,”/etc/profile”, “~/.bash_profile”等配...

2017-03-17 15:19:42

阅读数 294

评论数 0

Zookeeper

作者:张云聪 链接:https://www.zhihu.com/question/35139415/answer/61562488 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 ZooKeeper & kazoo zookeeper作为一个开源的分布式...

2017-03-02 19:54:30

阅读数 362

评论数 0

Java关键字final、static使用总结

一、final         根据程序上下文环境,Java关键字final有“这是无法改变的”或者“终态的”含义,它可以修饰非抽象类、非抽象类成员方法和变量。你可能出于两种理解而需要阻止改变:设计或效率。         final类不能被继承,没有子类,final类中的方法默认是fin...

2017-02-22 12:17:04

阅读数 286

评论数 0

hive内置函数

目录: 初始Hive Hive安装与配置 Hive 内建操作符与函数开发 Hive JDBC hive参数 Hive 高级编程 Hive QL Hive Shell 基本操作 hive 优化 Hive体系结构 Hive的原理 ...

2017-02-20 14:50:17

阅读数 833

评论数 0

MapReduce源码解析之Outputforamt

OutputFormat过程的作用就是定义数据key-value的输出格式,给你处理好后的数据,究竟以什么样的形式输出呢,才能让下次别人拿到这个文件的时候能准确的提取出里面的数据。这里,我们撇开这个话题,仅仅我知道的一些定义的数据格式的方法,比如在Redis中会有这样的设计: [key-le...

2017-02-20 13:50:29

阅读数 597

评论数 0

深入理解 Java中的 流 (Stream)

最近在看《Hadoop:The Definitive Guide》,对其分布式文件系统HDFS的Streaming data access不能理解。基于流的数据读写,太抽象了,什么叫基于流,什么是流?Hadoop是Java语言写的,所以想理解好Hadoop的Streaming Data Acces...

2017-02-20 10:33:04

阅读数 352

评论数 0

MapReduce之inputformat源码解析

1. 概述 我们在设置MapReduce输入格式的时候,会调用这样一条语句: 1 job.setInputFormatClass(KeyValueTextInputFormat.class); 这条语句保证了输...

2017-02-18 14:02:09

阅读数 371

评论数 0

linux下用cron定时执行任务的方法

名称 : crontab 使用权限 : 所有使用者 使用方式 : crontab file [-u user]-用指定的文件替代目前的crontab。 crontab-[-u user]-用标准输入替代目前的crontab. crontab-1[user]-...

2017-02-17 20:34:25

阅读数 2319

评论数 0

对现有Hive的大表进行动态分区

分区是在处理大型事实表时常用的方法。分区的好处在于缩小查询扫描范围,从而提高速度。分区分为两种:静态分区static partition和动态分区dynamic partition。静态分区和动态分区的区别在于导入数据时,是手动输入分区名称,还是通过数据来判断数据分区。对于大数据批量导入来说,显然...

2017-02-15 15:17:30

阅读数 287

评论数 0

hive中order by,sort by, distribute by, cluster by作用以及用法

1. order by     Hive中的order by跟传统的sql语言中的order by作用是一样的,会对查询的结果做一次全局排序,所以说,只有hive的sql中制定了order by所有的数据都会到同一个reducer进行处理(不管有多少map,也不管文件有多少的block只会启...

2017-02-15 13:39:05

阅读数 240

评论数 0

Mapreduce执行过程分析(基于Hadoop2.4)——(三)

4.4 Reduce类 4.4.1 Reduce介绍 整完了Map,接下来就是Reduce了。YarnChild.main()—>ReduceTask.run()。ReduceTask.run方法开始和MapTask类似,包括initialize()初始化,根据情况看是否调用runJob...

2017-02-13 15:30:03

阅读数 171

评论数 0

Mapreduce执行过程分析(基于Hadoop2.4)——(二)

转载自:http://www.cnblogs.com/Scott007/p/3840125.html 4.3 Map类    创建Map类和map函数,map函数是org.apache.hadoop.mapreduce.Mapper类中的定义的,当处理每一个键值对的时候,都要调...

2017-02-13 15:27:12

阅读数 468

评论数 0

Mapreduce执行过程分析(基于Hadoop2.4)——(一)

转载自:http://www.cnblogs.com/Scott007/p/3836687.html 1 概述 该瞅瞅MapReduce的内部运行原理了,以前只知道个皮毛,再不搞搞,不然怎么死的都不晓得。下文会以2.4版本中的WordCount这个经典例子作为分析的切入点,一步...

2017-02-13 15:26:17

阅读数 271

评论数 0

提示
确定要删除当前文章?
取消 删除
关闭
关闭