自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

转载 hive的性能优化

Hive性能优化 1.概述  继续《那些年使用Hive踩过的坑》一文中的剩余部分,本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍  首先,我们来看看Hadoop的计算框架特性,在此特性下会衍生哪些问题?数据量大不是问题,数据倾斜是个问题。jobs数比较多的作业运行效率相对...

2019-06-12 09:42:32 133

原创 01-Spark初始

Spark初始什么是SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架,Spark拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是Job中间输出结果可以保存在内存中,从而不再需要读写...

2019-04-18 08:58:25 127

原创 java语言版本的SparkWordCount

正常的版本/** * java版本的 spark word count */public class SparkJavaWordCount { public static void main(String [] args){ //创建配置文件 SparkConf conf = new SparkConf(); //设置在本地运...

2019-04-16 21:47:24 346

原创 scala语言版本的SparkWordCount

正常版本的 没排序 没简写object SparkWordCount { def main(args: Array[String]): Unit = { /** * 以下就是统计数量 但是没排序 */ //配置文件 val conf =new SparkConf() //运行模式 选择本地运行 conf.setMast...

2019-04-16 21:40:06 244

原创 impala的具体操作2-hive的分区分桶解释

JDBC在解释一下什么是分区什么是分桶?hive的分区、分桶什么叫做分区什么叫做表分区:hdfs 表 就是目录一级目录 就a目录是其中的一张表分区表 他的子目录1 号数据来了 就是将1数据放入1目录2号数据来了 就是将2数据放入2目录假如说 sql来了 from table where 日期 date =1只有这个1目...

2019-04-16 21:27:42 701

原创 Mapreduce的map的输出环节

本帖最后由 996-IT 于 2019-4-14 17:46 编辑 问题导读1.map结果是放在磁盘上,还是直接传输给reduce?2.负责map输出的为哪个函数?一、概要描述 shuffle是MapReduce的一个核心过程,因此没有在前面的MapReduce作业提交的过程中描述,而是单独拿出来比较详细的描述。 根据官方的流程图示如下:1.png (209.5...

2019-04-14 17:47:52 1919

转载 Hadoop-2.7.3源码分析:MapReduce作业提交源码跟踪

1、提交JobMapReduce程序框架请参考 http://blog.csdn.net/chengyuqiang/article/details/72804007@Override public int run(String[] args) throws Exception { //读取配置文件 Con...

2019-04-14 15:36:30 113

转载 如何在CSDN转载别人的博客

经常在网上看到一些很好的博客,因为各种原因(比如原博客被删除等等),回头想找的时候,已经找不到了。而且我以前的习惯是简单的在浏览器书签收藏,久而久之,书签越来越多,也越来越乱,于是为了管理好这些宝贵的学习资源,我开始在网上找新的方法。简单的CTRL+C,CTRL+V显然是行不通的,由于博客大多采用markDown 语法编写,因此我们要做的就是在网页的HTML中提取核心内容。下面我以我的一篇博...

2019-04-14 15:31:46 82

原创 impala服务添加到CDH-具体操作1

Impala的shell操作首先现将impala添加到cdh服务中=============以上cdh添加服务元数据同步 自动测试数据 快慢 hive和impalaimpala基于内存所以快hive测试数据 因为执行map和reduce计算 磁盘IOimpala建表 和...

2019-04-11 21:30:44 865

原创 impala简介2-架构

impala简介2-架构本人是个大数据新手,总结的很多不到位,希望大家多多海涵!!!!!!!首先简单的来说一下hbase,因为impala涉及到hbase的相关知识。hbase是什么?基于谷歌的三大论文中big table论文它可以组建一张非常大的表,行可以有很多,列也可以有很多,无限大、查询性能也很快。那么技术如何实现大和快那?俩个方向的切割第一点、垂直切割...

2019-04-11 00:33:02 200

原创 impala简介及与hive的比较

impala的简介Cloudera公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点是CDH平台首选的PB级大数据实时查询分析引擎官方的网站:http://www.cloudera.com/products/apache-hadoop/impala.htmlhttp://ww...

2019-04-11 00:01:21 440

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除