自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

转载 hive的性能优化

Hive性能优化 1.概述   继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。 2.介绍   首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题? 数据量大不是问题,数据倾斜是个问题。 jobs数比较多的作业运行效率相对...

2019-06-12 09:42:32 117

原创 01-Spark初始

Spark初始 什么是Spark Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写...

2019-04-18 08:58:25 119

原创 java语言版本的SparkWordCount

正常的版本 /** * java版本的 spark word count */ public class SparkJavaWordCount { public static void main(String [] args){ //创建配置文件 SparkConf conf = new SparkConf(); //设置在本地运...

2019-04-16 21:47:24 333

原创 scala语言版本的SparkWordCount

正常版本的 没排序 没简写 object SparkWordCount { def main(args: Array[String]): Unit = { /** * 以下就是统计数量 但是没排序 */ //配置文件 val conf =new SparkConf() //运行模式 选择本地运行 conf.setMast...

2019-04-16 21:40:06 222

原创 impala的具体操作2-hive的分区分桶解释

JDBC 在解释一下什么是分区什么是分桶? hive的分区、分桶 什么叫做分区 什么叫做表 分区: hdfs 表 就是目录 一级目录 就a目录是其中的一张表 分区表 他的子目录 1 号数据来了 就是将1数据放入1目录 2号数据来了 就是将2数据放入2目录 假如说 sql来了 from table where 日期 date =1 只有这个1目...

2019-04-16 21:27:42 688

原创 Mapreduce的map的输出环节

本帖最后由 996-IT 于 2019-4-14 17:46 编辑 问题导读 1.map结果是放在磁盘上,还是直接传输给reduce? 2.负责map输出的为哪个函数? 一、概要描述 shuffle是MapReduce的一个核心过程,因此没有在前面的MapReduce作业提交的过程中描述,而是单独拿出来比较详细的描述。 根据官方的流程图示如下: 1.png (209.5...

2019-04-14 17:47:52 1877

转载 Hadoop-2.7.3源码分析:MapReduce作业提交源码跟踪

1、提交Job MapReduce程序框架请参考 http://blog.csdn.net/chengyuqiang/article/details/72804007 @Override public int run(String[] args) throws Exception { //读取配置文件 Con...

2019-04-14 15:36:30 86

转载 如何在CSDN转载别人的博客

经常在网上看到一些很好的博客,因为各种原因(比如原博客被删除等等),回头想找的时候,已经找不到了。而且我以前的习惯是简单的在浏览器书签收藏,久而久之,书签越来越多,也越来越乱,于是为了管理好这些宝贵的学习资源,我开始在网上找新的方法。 简单的CTRL+C,CTRL+V显然是行不通的,由于博客大多采用markDown 语法编写,因此我们要做的就是在网页的HTML中提取核心内容。 下面我以我的一篇博...

2019-04-14 15:31:46 74

原创 impala服务添加到CDH-具体操作1

Impala的shell操作 首先现将impala添加到cdh服务中 ============= 以上cdh添加服务 元数据同步 自动 测试数据 快慢 hive和impala impala基于内存所以快 hive测试数据 因为执行map和reduce计算 磁盘IO impala建表 和...

2019-04-11 21:30:44 855

原创 impala简介2-架构

impala简介2-架构 本人是个大数据新手,总结的很多不到位,希望大家多多海涵!!!!!!! 首先简单的来说一下hbase,因为impala涉及到hbase的相关知识。 hbase是什么? 基于谷歌的三大论文中big table论文 它可以组建一张非常大的表,行可以有很多,列也可以有很多,无限大、查询性能也很快。 那么技术如何实现大和快那? 俩个方向的切割 第一点、垂直切割 ...

2019-04-11 00:33:02 192

原创 impala简介及与hive的比较

impala的简介 Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。 基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点 是CDH平台首选的PB级大数据实时查询分析引擎 官方的网站: http://www.cloudera.com/products/apache-hadoop/impala.html http://ww...

2019-04-11 00:01:21 406

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除