996-IT-CSDN博客

转载 hive的性能优化

Hive性能优化 1.概述　　继续《那些年使用Hive踩过的坑》一文中的剩余部分，本篇博客赘述了在工作中总结Hive的常用优化手段和在工作中使用Hive出现的问题。下面开始本篇文章的优化介绍。2.介绍　　首先，我们来看看Hadoop的计算框架特性，在此特性下会衍生哪些问题？数据量大不是问题，数据倾斜是个问题。jobs数比较多的作业运行效率相对...

2019-06-12 09:42:32 195

Spark初始什么是SparkApache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写...

2019-04-18 08:58:25 196

原创 java语言版本的SparkWordCount

正常的版本/** * java版本的 spark word count */public class SparkJavaWordCount { public static void main(String [] args){ //创建配置文件 SparkConf conf = new SparkConf(); //设置在本地运...

2019-04-16 21:47:24 399

原创 scala语言版本的SparkWordCount

正常版本的没排序没简写object SparkWordCount { def main(args: Array[String]): Unit = { /** * 以下就是统计数量但是没排序 */ //配置文件 val conf =new SparkConf() //运行模式选择本地运行 conf.setMast...

2019-04-16 21:40:06 297

原创 impala的具体操作2-hive的分区分桶解释

JDBC在解释一下什么是分区什么是分桶？hive的分区、分桶什么叫做分区什么叫做表分区：hdfs 表就是目录一级目录就a目录是其中的一张表分区表他的子目录1 号数据来了就是将1数据放入1目录2号数据来了就是将2数据放入2目录假如说 sql来了 from table where 日期 date =1只有这个1目...

2019-04-16 21:27:42 782

原创 Mapreduce的map的输出环节

本帖最后由 996-IT 于 2019-4-14 17：46 编辑问题导读1.map结果是放在磁盘上，还是直接传输给reduce?2.负责map输出的为哪个函数？一、概要描述 shuffle是MapReduce的一个核心过程，因此没有在前面的MapReduce作业提交的过程中描述，而是单独拿出来比较详细的描述。根据官方的流程图示如下：1.png (209.5...

2019-04-14 17:47:52 2031

转载 Hadoop-2.7.3源码分析：MapReduce作业提交源码跟踪

1、提交JobMapReduce程序框架请参考 http://blog.csdn.net/chengyuqiang/article/details/72804007@Override public int run(String[] args) throws Exception { //读取配置文件 Con...

2019-04-14 15:36:30 151

转载如何在CSDN转载别人的博客

经常在网上看到一些很好的博客，因为各种原因（比如原博客被删除等等），回头想找的时候，已经找不到了。而且我以前的习惯是简单的在浏览器书签收藏，久而久之，书签越来越多，也越来越乱，于是为了管理好这些宝贵的学习资源，我开始在网上找新的方法。简单的CTRL+C,CTRL+V显然是行不通的，由于博客大多采用markDown 语法编写，因此我们要做的就是在网页的HTML中提取核心内容。下面我以我的一篇博...

2019-04-14 15:31:46 121

原创 impala服务添加到CDH-具体操作1

Impala的shell操作首先现将impala添加到cdh服务中=============以上cdh添加服务元数据同步自动测试数据快慢 hive和impalaimpala基于内存所以快hive测试数据因为执行map和reduce计算磁盘IOimpala建表和...

2019-04-11 21:30:44 953

原创 impala简介2-架构

impala简介2-架构本人是个大数据新手，总结的很多不到位，希望大家多多海涵！！！！！！！首先简单的来说一下hbase，因为impala涉及到hbase的相关知识。hbase是什么？基于谷歌的三大论文中big table论文它可以组建一张非常大的表，行可以有很多，列也可以有很多，无限大、查询性能也很快。那么技术如何实现大和快那？俩个方向的切割第一点、垂直切割...

2019-04-11 00:33:02 275

原创 impala简介及与hive的比较

impala的简介Cloudera公司推出，提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive使用内存计算，兼顾数据仓库、具有实时、批处理、多并发等优点是CDH平台首选的PB级大数据实时查询分析引擎官方的网站：http://www.cloudera.com/products/apache-hadoop/impala.htmlhttp://ww...

2019-04-11 00:01:21 504

weixin_39586561的博客