bigdata相关
程序员学习圈
值得去的地方,没有捷径;难走的路,才更值得开始!
展开
-
数据倾斜
一、前言二、什么是数据倾斜?三、数据倾斜长什么样?四、数据倾斜的原理五、解决数据倾斜的思路六、MR解决数据倾斜的方法七、Hive解决数据倾斜的方法八、Spark解决数据倾斜的方法一、前言1.1 绪论 数据倾斜是大数据领域绕不开的拦路虎,当你所需处理的数据量到达了上亿甚至是千亿条的时候,数据倾斜将是横在你面前一道巨大的坎。 迈的过去,将会海阔天空!迈不过去,就要做好准备:很可能有几周甚至几月都要头疼于数据倾斜导致的各类诡异的问题。1.2 郑重声...原创 2020-06-04 23:53:48 · 806 阅读 · 0 评论 -
Impala 详细介绍
1.Impala的基本概念1.1 什么是Impala Cloudera 公司推出,提供对HDFS、Hbase数据的高性能、低延迟的交互式SQL查询功能。基于Hive,使用内存计算,兼顾数据仓库、具有实时、批处理、多并发等优点。是CDH平台首选的PB级大数据实时查询分析引擎。 Impala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。 ...原创 2019-10-10 19:00:26 · 2924 阅读 · 0 评论 -
Presto 详细介绍
1.Presto 简单介绍1.1 Presto基本概念 Presto是Facebook开源的MPP SQL引擎,旨在填补Hive在速度和灵活性(对接多种数据源)上的不足。相似的SQL on Hadoop竞品还有Impala和Spark SQL等。这里我们介绍下Presto的基本概念。 Presto是一个分布式的查询引擎,本身并不存储数据,但是可以接入多种数据源,并且支持跨数...原创 2019-10-10 15:09:55 · 14652 阅读 · 1 评论 -
Phoenix 基本介绍
1.Phoenix 简介1.1 Phoenix定义 Phoenix是HBase的开源SQL皮肤。可以使用标准JDBC API代替HBase客户端API来创建表,插入数据和查询HBase数据。1.2 Phoenix特点 • 容易集成:如Spark,Hive,Pig,Flume和Map Reduce。 • 性能好:直接使用HBase API以及协处理器和自定义过滤...原创 2019-09-26 00:06:02 · 551 阅读 · 0 评论 -
HUE 基本介绍
1.HUE 简介 HUE=HadoopUser Experience,看这名字就知道怎么回事了吧,没错,直白来说就是Hadoop用户体验,是一个开源的Apache Hadoop UI系统,由Cloudera Desktop演化而来,最后Cloudera公司将其贡献给Apache基金会的Hadoop社区,它是基于Python Web框架Django实现的。通过使用HUE我们可以在浏览器端的...原创 2019-09-14 23:10:29 · 9140 阅读 · 0 评论 -
CDH,HDP,Apache Hadoop之间的关系
Cloudera Manager 安装部署-在线安装(6.0.1)a1.综述目前Hadoop发行版非常多,有华为发行版、Intel发行版、Cloudera发行版(CDH)等,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,完全是由Apache Hadoop的开源协议决定的:任何人可以对其进行修改,并作为开源或商业产品发布/销售。(http://ww...原创 2019-09-12 18:26:36 · 509 阅读 · 0 评论 -
Ambari 基本介绍(HDP版本)
1.Ambari简介1.1 什么是Ambari Apache Ambari项目旨在通过开发用于配置,管理和监控Apache Hadoop集群的软件来简化Hadoop管理。Ambari提供了一个直观,易用的Hadoop管理Web UI。1.2 Ambari的功能 • 提供了跨任意数量的主机安装Hadoop服务的分步向导。 • 处理群集的Hadoop服务配...原创 2019-09-11 22:51:47 · 1943 阅读 · 0 评论 -
Cloudera Manager 基本介绍(CDH版本)
1.cloudera manager 的概念 简单来说,Cloudera Manager是一个拥有集群自动化安装、中心化管理、集群监控、报警功能的一个工具(软件),使得安装集群从几天的时间缩短在几个小时内,运维人员从数十人降低到几人以内,极大的提高集群管理的效率。2.cloudera manager 的功能cloudera manager有四大功能: •...原创 2019-09-11 11:21:35 · 22354 阅读 · 0 评论 -
Superset 基本介绍
1.Superset基本概念1.1 简介 Apache Superset(孵化)是一个现代化的企业级商业智能Web应用程序。1.2 特点 • 快速创建可交互的、直观形象的数据集合 • 有丰富的可视化方法来分析数据,且具有灵活的扩展能力 • 具有可扩展的、高粒度的安全模型,可以用复杂规则来控制访问权限。目前支持主要的认证提供商:DB、OpenID、LD...原创 2019-07-06 00:28:51 · 2412 阅读 · 1 评论 -
JIRA 使用详解
1.JIRA和Atlassian公司 JIRA是Atlassian公司的产品。Atlassian公司于2002在澳大利亚悉尼成立,提供面向企业业务流程的协同办公产品,并于2015年12月在纳斯达克上市。作为一家SaaS公司,不雇佣一个销售人员,仅通过口碑获客,市值达10亿美金级别(64亿美元-2017年3月13日),这也从另外角度反映出这个产品的独特之处。 Atlassi...原创 2019-07-05 20:02:16 · 2380 阅读 · 0 评论