![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
HADOOP
文章平均质量分 87
huo_rj
这个作者很懒,什么都没留下…
展开
-
sqoop一点一滴之导数据从mysql2hive
1、使用sqoop在hive中创建table test sqoop create-hive-table --connect jdbc:mysql://192.168.100.65:3301/crm --table d_accounttype --username crm --password crm --hive-table d_accounttype 2、编写mysql...原创 2015-05-27 17:22:18 · 233 阅读 · 0 评论 -
Flume NG 简介及配置实战
(转)http://my.oschina.net/leejun2005/blog/288136 Flume 作为 cloudera 开发的实时日志收集系统,受到了业界的认可与广泛应用。Flume 初始的发行版本目前被统称为 Flume OG(original generation),属于 cloudera。但随着 FLume 功能的扩展,Flume OG 代码工程臃肿、核心组件设计不合...原创 2015-05-29 17:07:35 · 82 阅读 · 0 评论 -
Hive一点一滴系列之Eclipse调用hive执行操作
1、在hive 中启动hive服务,端口为10002. hive --service hiveserver -p 10002 2、调用代码 package com.hrj.jdbc; import java.sql.Connection; import java.sql.DriverManager; import java.sql.ResultSet; import...原创 2015-06-04 09:50:02 · 311 阅读 · 0 评论 -
(读书笔记)Hive一点一滴系列之数据类型和文件格式
一、基本数据类型 类型 长度 tinyint 1b smalint 2b int 4b bigint 8b Boolean 布尔 float 单精度浮点数 double 双精度浮点数 string 字符序列 timestamp 整数,...原创 2015-06-04 19:00:07 · 131 阅读 · 0 评论 -
MapReduce初级案例详细
1、数据去重 "数据去重"主要是为了掌握和利用并行化思想来对数据进行有意义的筛选。统计大数据集上的数据种类个数、从网站日志中计算访问地等这些看似庞杂的任务都会涉及数据去重。下面就进入这个实例的MapReduce程序设计。 1.1 实例描述 对数据文件中的数据进行去重。数据文件中的每行都是一个数据。 样例输入如下所示: 1)file1: 2012-3-...原创 2015-06-15 16:56:23 · 200 阅读 · 0 评论 -
HDFS原理分析
HDFS是Hadoop Distribute File System 的简称,也就是Hadoop的一个分布式文件系统。 一、HDFS的主要设计理念 1、存储超大文件 这里的“超大文件”是指几百MB、GB甚至TB级别的文件。 2、最高效的访问模式是 一次写入、多次读取(流式数据访问) HDFS存储的数据集作为hadoop的分析对象。在数据集生成后,长时间在此数据集上进行各种分析。...原创 2015-06-26 15:39:50 · 128 阅读 · 0 评论 -
浅析 Hadoop 中的数据倾斜
在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大,但是集群中可能硬件不同,应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间,硬件不同就不说了,应用的类型不同其中就比如page rank 或者data mining 里面一些计算,它的每条记录消耗的成本不太一样,这里只讨论关于关系型运算的(一般能用SQL表述的) 数据切分...原创 2015-06-26 16:31:13 · 100 阅读 · 0 评论