- 博客(11)
- 资源 (1)
- 收藏
- 关注
转载 基于zookeeper实现分布式锁
转自:http://blog.csdn.net/sunfeizhi/article/details/51926396一、分布式锁介绍 分布式锁主要用于在分布式环境中保护跨进程、跨主机、跨网络的共享资源实现互斥访问,以达到保证数据的一致性。二、架构介绍 在介绍使用Zookeeper实现分布式锁之前,首先看当前的系统架构图 解释...
2018-03-18 14:54:14 224
转载 Hbase万亿级存储性能优化总结
背景hbase主集群在生产环境已稳定运行有1年半时间,最大的单表region数已达7200多个,每天新增入库量就有百亿条,对hbase的认识经历了懵懂到熟的过程。为了应对业务数据的压力,hbase入库也由最初的单机多线程升级为有容灾机制的分布式入库,为及早发现集群中的问题,还开发了一套对hbase集群服务和应用全面监控的报警系统。总结下hbase化(针对0.94版本)方面的一些经验也算对这两年hb...
2018-03-18 00:06:59 514
转载 Linux中VMware虚拟机增加磁盘空间的扩容操作
用VMwareware虚拟机安装的Red Hat Enterprise Linux系统剩余空间不足,造成软件无法正常安装。如果重新装一遍系统就需要重新配置好开发环境和软件的安装配置。通过上网搜集的资料,结合自己的实践,总结了如下扩大硬盘空间的详细步骤,希望对大家有帮助。(1)打开VMware,选择Edit Virtual mache settings,Utilities下拉框中找到Expand如下...
2018-03-17 15:38:27 452
转载 Spark算子选择策略
摘要 1.使用reduceByKey/aggregateByKey替代groupByKey 2.使用mapPartitions替代普通map 3.使用foreachPartitions替代foreach 4.使用filter之后进行coalesce操作 5.使用repartitionAndSortWithinPartitions替代repartition与sort类操作 6.使用br...
2018-03-14 21:50:13 234
转载 Spark Shuffle原理、Shuffle操作问题解决和参数调优
摘要: 1 shuffle原理 1.1 mapreduce的shuffle原理 1.1.1 map task端操作 1.1.2 reduce task端操作 1.2 spark现在的SortShuffleManager 2 Shuffle操作问题解决 2.1 数据倾斜原理 2.2 数据倾斜问题发现与解决 2.3 数据倾斜解决方案 3 sp...
2018-03-14 14:51:58 724
转载 离线安装Cloudera Manager 5和CDH5(最新版5.12.0) 完全教程
关于CDH和Cloudera ManagerCDH (Cloudera's Distribution, including Apache Hadoop),是Hadoop众多分支中的一种,由Cloudera维护,基于稳定版本的Apache Hadoop构建,并集成了很多补丁,可直接用于生产环境。Cloudera Manager则是为了便于在集群中进行Hadoop等大数据处理相关的服务
2018-03-13 21:16:30 403
转载 linux系统离线安装mysql
本文主要介绍linux使用官方编译好的二进制包安装mysql。首先下载:mysql-5.6.37-linux-glibc2.12-x86_64.tar.gz网址:https://dev.mysql.com/downloads/mysql/注意选择:Linux - Generic 表示Linux通用版本的mysql解压安装文件:[java] view plain copytar -zxvf mys...
2018-03-13 15:53:37 309
转载 Linux下彻底卸载mysql详解
一、使用以下命令查看当前安装mysql情况,查找以前是否装有mysql?1rpm -qa|grep -i mysql可以看到如下图的所示:显示之前安装了: MySQL-client-5.5.25a-1.rhel5 MySQL-server-5.5.25a-1.rhel52、停止mysql服务、删除之前安装的mysql删除命令:rpm -e –nodeps 包名?12rpm -ev ...
2018-03-13 15:11:37 208
转载 HiveSQL解析原理:包括SQL转化为MapReduce过程及MapReduce如何实现基本SQL操作
问题导读:1.什么是Hive?2.MapReduce框架实现SQL基本操作的原理是什么?3.Hive怎样实现SQL的词法和语法解析?Hive是基于Hadoop的一个数据仓库系统,在各大公司都有广泛的应用。美团数据仓库也是基于Hive搭建,每天执行近万次的Hive ETL计算流程,负责每天数百GB的数据存储和分析。Hive的稳定性和性能对我们的数据分析非常关键。在几次升级Hive的过程中,我们遇到了...
2018-03-11 19:17:33 491
转载 技巧:ArrayList删除元素时, 从尾部开始遍历,可大大提升执行效率
一.描述: 1. 工作中,常常遇到这样的要求: 将列表里符合(或不符合)某条件的元素删除, 如: 有列表list = [ "a", "b", "c", "d" ], 删除其中的"a", "b", "c" 2. 关键在于遍历: 建议从尾部开始, 取代常规的从头部开始 3. 有人会说 使用 LinkedList 更合适 -- 此处只考虑 Ar
2018-03-11 16:27:05 1494 1
转载 Hbase 热点(数据倾斜)问题解决方案---rowkey散列和预分区设计
Hbase的表会被划分为1....n个Region,被托管在RegionServer中。Region二个重要的属性:Startkey与EndKey表示这个Region维护的rowkey的范围,当我们要读写数据时,如果rowkey落在某个start-end key范围内,那么就会定位到目标region并且读写到相关的数据。 默认情况下,当我们通过hbaseAdmin指定TableDescrip...
2018-03-10 21:35:19 393
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人