qq_38799155-CSDN博客

原创 hive数据倾斜解决方法

hive数据倾斜解决方法数据倾斜是进行大数据计算时最经常遇到的问题之一。当我们在执行HiveQL或者运行MapReduce作业时候，如果遇到一直卡在map100%,reduce99%一般就是遇到了数据倾斜的问题。数据倾斜其实是进行分布式计算的时候，某些节点的计算能力比较强或者需要计算的数据比较少，早早执行完了，某些节点计算的能力较差或者由于此节点需要计算的数据比较多，导致出现其他节点的redu...

2018-07-14 23:26:57 388

原创 Ambari 2.1安装HDP2.3.2 之六、安装部署HDP集群详细步骤

六、安装部署HDP集群浏览器访问 http://master:8080，进入amabri登录页面，用户名：admin，密码： admin 选择 Launch Install Wizard: 1. Get started给集群起个名字，这里是 BigData: 2. Select stack选择 hdp2.3, 将除redhat6 以外的复选框去掉勾。并且将hd...

2018-07-07 23:38:21 585

原创 Ambari 2.1安装 HDP2.3.2 之五、配置amabri-server

五、配置ambari-server配置ambari-server之前要先建立amabri要使用的数据库。1.为ambari建立数据库# yum install mysql-connector-java# mysql -u root -pmysql&gt; USER 'ambari'@'%' IDENTIFIED BY 'glj887'; mysql&gt; GRANT ...

2018-07-07 23:16:43 491

原创 Amabri 2.1 安装HDP2.3.2 之四、安装ambari

四、安装amabri在五 2 （5）那一步，我选择的是非默认的mysql数据库，所以需要提前做些安排。当然，你可以选择默认的PostgreSQL 数据库。1.查看下现有的资源库配置信息：# yum repolist 会出现和以下相近的信息： 2.开始安装amabri-server ：# yum install ambari-server安装过程终端会输...

2018-07-07 23:06:07 256

原创 Amabri 2.1安装HDP2.3.2 之三、开始配置基本环境

三、开始配置基本环境1.配置 SSH1）在Ambari Server host执行下列语句，一路回车，生成公钥和私钥。# ssh-keygen -t rsa2). 将公钥文件(id_rsa.pub)追加到 authorized_keys.# cat ~/.ssh.id_rsa.pub &gt;&gt; ~/.ssh/authorized_keys# chmod 6...

2018-07-07 23:00:10 392

原创 Amabri 2.1安装HDP2.3.2 之二、需求配置说明

二、需求配置说明Ambari 安装hortonworks相应ambari版本可以支持的hdp版本如下图2.0：图2.0我们选择的是ambari2.1.2，hdp是2.3.2.0 此时我们准备好一台纯净虚拟机作为master机，完整克隆出两台slave机。注意：通过ambari安装hdp，并不能安装hue。我们想要安Hue，所以需要手动安装。而hue不支持centos7下的...

2018-07-07 22:16:43 283

原创 Amabri 2.1安装HDP2.3.2 之一、HDP介绍

一、HDP（一）简介HDP全称是Hortonworks Data Platform，是由一家美国大数据公司Hortonworks开发的企业级Hadoop平台。 Hortonworks致力于帮助客户利用Hadoop开源大数据平台管理数据。HDP是完全在开源的环境下设计、开发和构建的，它以 YARN 作为其架构中心，该平台支持一系列处理方法——批处理、交互式处理、实时处理。（二...

2018-07-07 22:01:38 586

原创 spark-1.6.x的学习总结

官方定义：spark是一个基于内存的分布式计算框架它会使得计算速度以及开发速度快！特点：One stack rule them all ! 一站解决所有问题热查询(Hive)批处理(MapReduce)实时流计算(Storm)回顾MapReduce 的 Shuffle过程见图 hadoop慢的原因： 1、基于内存 2、DAG的优化运行模式：...

2018-07-05 23:23:48 316

原创大数据的学习路线总结

离线数据分析的总结，分享出来给大家。先上图，手绘有点丑，请关注内容即可。大数据离线处理技术学习要点图：虽然网上也有很多的学习路线，很多的方法建议，各类不同的工具，但是找到属于自己的才是最好的。下面我就来详细说下我的学习路线吧。一、基础阶段1、开始大数据学习之前，首先要把基础打好。我在学习大数据的过程中，学习的准备部分主要包括Java，Linux和MySQL的学习。具体的学习...

2018-07-03 14:30:42 828

原创 Flink架构、原理与部署测试及从kafka到flink到hbase

一、Flink架构、原理与部署测试Flink架构、原理与部署测试二、kafka+flink+hbase1.首先创建maven工程。2.依赖文件如下<dependencies> <dependency> <groupId>org.apache.flink</groupId> <a...

2018-06-25 23:12:59 2517

原创 Hadoop MapReduce执行过程详解

分析MapReduce执行过程MapReduce运行的时候，会通过Mapper运行的任务读取HDFS中的数据文件，然后调用自己的方法，处理数据，最后输出。Reducer任务会接收Mapper任务输出的数据，作为自己的输入数据，调用自己的方法，最后输出到HDFS的文件中。 Mapper任务的执行过程详解每个Mapper任务是一个java进程，它会读取HDFS中的文件，解析成很多的...

2018-06-11 12:29:16 1204

原创 MapReduce数据倾斜问题的解决方案

MapReduce数据倾斜问题解决方案，在并行计算中我们总希望分配的每一个task 都能以差不多的粒度来切分并且完成时间相差不大，但是集群中可能硬件不同，应用的类型不同和切分的数据大小不一致总会导致有部分任务极大的拖慢了整个任务的完成时间，硬件不同就不说了，应用的类型不同其中就比如page rank 或者data mining 里面一些计算，它的每条记录消耗的成本不太一样，这里只讨论关于关系型运算...

2018-05-11 13:24:07 1252

原创 CSDN-markdown编辑器的使用

欢迎使用Markdown编辑器写博客本Markdown编辑器使用StackEdit修改而来，用它写博客，将会带来全新的体验哦：Markdown和扩展Markdown简洁的语法代码块高亮图片链接和图片上传LaTex数学公式UML序列图和流程图离线写博客导入导出Markdown文件丰富的快捷键快捷键加粗 Ctrl + B 斜体 Ctrl + I...

2018-05-11 13:19:34 132

原创 Java集合类框架的基本接口有哪些

一.为什么要使用接口假如有一个需求：要求实现防盗门的功能。门有”开”和”关”的功能，锁有”上锁”和”开锁”的功能。分析：首先防盗门是一个门，门有开门和关门的功能，还有一把锁，锁有开锁和上锁，按照面向对象的编程的思想，我们会将门和锁都作为一个类而单独存在，但是，不能让防盗门继承自门的同时又继承自锁，防盗门不是锁，不符合继承中is a的关系，在java中支持单继承。那么我们如何来解决这一问题，这时就要用

2018-05-09 09:02:06 3586

原创 spark中groupByKey 和reduceByKey 的区别：

他们都是要经过shuffle的，groupByKey在方法shuffle之间不会合并原样进行shuffle，。reduceByKey进行shuffle之前会先做合并,这样就减少了shuffle的io传送，所以效率高一点。object GroupyKeyAndReduceByKeyDemo { def main(args: Array[String]): Unit = { Logg

2018-05-03 12:03:54 4549 1

原创 java知识点重点

JVM相关(包括了各个版本的特性) 对于刚刚接触Java的人来说，JVM相关的知识不一定需要理解很深，对此里面的概念有一些简单的了解即可。不过对于一个有着3年以上Java经验的资深开发者来说，不会JVM几乎是不可接受的。 JVM作为java运行的基础，很难相信对于JVM一点都不了解的人可以把java语言吃得很透。我在面试有超过3年Java经验的开发者的时候， JVM几乎就是一个必问的问题了。当然

2018-04-14 22:11:53 159

原创 Java面试知识点总结

Java面试知识点总结本篇文章会对面试中常遇到的Java技术点进行全面深入的总结，帮助我们在面试中更加得心应手，不参加面试的同学也能够借此机会梳理一下自己的知识体系，进行查漏补缺（阅读本文需要有一定的Java基础；若您初涉Java，可以通过这些问题建立起对Java初步的印象，待有了一定基础后再后过头来看收获会更大）。本文

2018-04-14 21:58:33 1747 1

原创 Git命令

Git 是一个很强大的分布式版本控制系统。它不但适用于管理大型开源软件的源代码，管理私人的文档和源代码也有很多优势。Git常用操作命令：1) 远程仓库相关命令检出仓库：$ git clone git://github.com/jquery/jquery.git查看远程仓库：$ git remote -v添加远程仓库：$ git remote add [name] [url]删除远程仓库：$ git

2017-11-16 13:32:12 168

原创 SQL语句

SQL语句参考，包含Access、MySQL 以及 SQL Server基础创建数据库CREATE DATABASE database-name 12删除数据库drop database dbname12备份sql server创建备份数据的 device USE masterEXEC sp_addumpdevice 'disk', 'testBack', 'c:\mssql7backup

2017-11-12 14:41:38 418

原创伪分布式集群环境hadoop、hbase、zookeeper搭建

环境说明 1、操作系统centos 6.52、jdk-7u51-linux-x64.tar.gz hadoop-1.1.2.tar.gz hbase-0.94.7-security.tar.gz zookeeper-3.4.5.tar.gz设置IP地址设置静态ip执行[plain] view plain copy print?vim /etc/sysconfig/network-s

2017-11-09 23:25:37 847

原创 redis单机及其集群的搭建

## **一、单机版redeis** ## 1.安装包下载　　http://download.redis.io/releases/ 下载redis的压缩包，并放在/usr/soft文件夹下2.解压压缩包： tar -zxf redis-3.0.7.tar.gz 3.安装这里安装redis在/usr/local/redis文件夹中进入安装包：cd /usr/soft/redis-3.

2017-11-09 17:34:58 353

原创 HBase调优

一、表的设计1.1 Pre-Creating Regions默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入HBase时，会按照region分区情况，在集群内做数据的负载均衡。下面是一个

2017-11-09 17:14:02 251

原创 HBase详解

本文首先简单介绍了HBase,然后重点讲述了HBase的高并发和实时处理数据、HBase数据模型、HBase物理存储、HBase系统架构，HBase调优、HBase Shell访问等。不过在此之前，你可以先了解 Hadoop生态系统，若想运行HBase，则需要先搭建好Hadoop集群环境，可以参考此文搭建5个节点的hadoop集群环境（CDH5）。好了，让我们来学习HBase吧！HBase简介

2017-11-09 13:34:21 862

原创 Java线程的start方法如何回调run方法

导读：面试中可能会被问到为什么我们调用start()方法时会执行run()方法，为什么我们不能直接调用run()方法？Java 创建线程的方法实际上，创建线程最重要的是提供线程函数（回调函数），该函数作为新创建线程的入口函数，实现自己想要的功能。Java 提供了两种方法来创建一个线程：继承 Thread 类class MyThread extends Thread{ public void

2017-11-09 12:15:10 801

原创 Sbt仓库设置

每次sbt update的时候，都很慢，上火。原因是国内访问国外仓库，不给力。改下repo仓库的设置就好了：找到.sbt文件夹，一般在Administrator下，然后在.sbt里新建一个repositories文件，添加内容：[repositories] local osc: http://maven.oschina.net/content/groups/public/ typesa

2017-11-08 15:09:32 1054

原创 MapReduce的工作原理

一、MapReduce模型框架 MapReduce是一个用于大规模数据处理的分布式计算模型，最初由Google工程师设计并实现的，Google已经将完整的MapReduce论文公开发布了。其中的定义是，MapReduce是一个编程模型，是一个用于处理和生成大规模数据集的相关的实现。用户定义一个map函数来处理一个Key-Value对以生成一批中间的Key-Value对，再定义一个red

2017-11-01 21:58:53 2079

原创流式大数据处理的三种框架:Storm，Spark和Samza

许多分布式计算系统都可以实时或接近实时地处理大数据流。本文将对三种Apache框架分别进行简单介绍，然后尝试快速、高度概述其异同。Apache Storm在Storm中，先要设计一个用于实时计算的图状结构，我们称之为拓扑（topology）。这个拓扑将会被提交给集群，由集群中的主控节点（master node）分发代码，将任务分配给工作节点（worker node）执行。一个拓扑中包括spout和b

2017-10-28 18:22:20 433

转载 Hbase原理、基本概念、基本架构

Hbase原理、基本概念、基本架构原创 2013年12月26日 16:36:37 <ul class="article_tags clearfix csdn-tracking-statistics" da

2017-10-28 15:03:01 205

原创 HBase中的HMaster、HRegionServer、Zookeeper

HMaster是HBase主/从集群架构中的中央节点。通常一个HBase集群存在多个HMaster节点,其中一个为Active Master,其余为Backup Master. Hbase每时每刻只有一个hmaster主服务器程序在运行，hmaster将region分配给region服务器，协调region服务器的负载并维护集群的状态。Hmaster不会对外提供数据服务，而是由region服务器负

2017-10-28 14:37:51 1932

原创 Hive配置远程连接MySQL

因为hive是Hadoop的一个组件，作为数据厂库，hive的数据是存储在Hadoop的文件系统中的，hive为Hadoop提供SQL语句，是Hadoop可以通过SQL语句操作文件系统中的数据。hive是依赖Hadoop而存在的。因此hive的安装详解,请参考博客:http://blog.csdn.net/qq_38799155/article/details/77605615在hadfs上创建

2017-10-23 23:20:45 2376

原创 Hive通过JavaAPI操作

Java 想要访问Hive，需要通过beeline的方式连接Hive，hiveserver2提供了一个新的命令行工具beeline，hiveserver2 对之前的hive做了升级，功能更加强大，它增加了权限控制，要使用beeline需要先启动hiverserver2，再使用beeline连接基于hadoop的Hive数据仓库JavaAPI简单调用的实例，关于Hive的简介在此不赘述。hive提供

2017-10-23 15:18:03 1336

原创在windowns下安装Anaconda3运行spark

1. 准备工作1.1需要的软件： Anaconda3-5.0.0-Windows-x86_64 hadoop-2.7.4 jdk1.8+ spark-2.2.0-bin-hadoop2.71.2下载软件 Anaconda 官网下载地址：https://www.continuum.io/downloads 目前最新版本是 python 3.6，默认下载也是 Python 3.6，百度网

2017-10-16 21:21:02 5465 1

原创 VMware虚拟机不能联网（xshell不能远程连接虚拟机）

## 知识重在积累 ##一直在积累（虚拟机在windowns上连接不到VMware的原因）：原因1：windowns的防火墙未关闭或者是虚拟机的防火墙未关闭解决的办法：关闭防火墙原因2：在用一些加速软件（如：360 、QQ安全管家）时，把一些服务关闭了详细解决办法，参照连接：https://jingyan.baidu.com/article/cbf0e5009c6b332eab289359.htm

2017-10-15 14:49:38 1265

原创 Flume的安装及简单的使用（二）

1.准备工作在Flume的安装及简单的使用（一）的基础上系统环境之上添加hadoop-2.7.3 ，并创建hadoop伪分布集群并创建。hadoop伪分布集群的搭建，请参考：http://blog.csdn.net/qq_38799155/article/details/777488312.配置 Flume环境变量在hadoop用户下配置：$ vi .bashrc添加如下内容export FLUM

2017-09-19 03:07:03 1380

原创 Flume的安装及简单的使用（一）

1.Flume简介Flume是Cloudera提供的一个高可用、高可靠、分布式的海量日志采集、聚合和传输的系统。Flume支持在日志系统中定制各类数据发送方用于收集数据，同时Flume提供对数据的简单处理，并将数据处理结果写入各种数据接收方的能力。 Flume作为Cloudera开发的实时日志收集系统，受到了业界的认可与广泛应用。2010年11月Cloudera开源了Flume的第一个可用版本0.

2017-09-18 22:54:56 1059

原创在centos7下搭建redis集群

1. 环境的介绍在一台虚拟机上模拟6个节点（官方说最少6个，3master，3slave），创建出3 master、3 salve 环境。 redis 采用 redis-4.0.1 版本。在网上随便可以找到的配置多个redis，（总体有两种方式，一种是虚拟的，貌似走的都是一个redis，一种是将配置好的redis复制成六份，配置相应的端口等，我选择的后者显得更真实一些）2.开始搭建2.1下载并

2017-09-14 16:54:09 405

原创 Tengine + Lua + GraphicsMagick 实现图片自动裁剪/缩放

1.产生的背景随着互联网的快速发展、需求频繁变更、内容数量的俱增、时间的持续增长，图片数量也会越来越多。在实际需求中，会出现在若干个页面或同一个页面不同位置，展示同一条信息以及其缩略图。在这时，如果使用 CSS 控制图片显示的大小，对于那些与该位置不成比例的图片，缩小后就会出现图片变形。也不可能让编辑人员，对所有的图片进行 PS，这时候就产生了强烈的自动化裁剪、缩放图片的需求，来适应不同规格的缩略图

2017-09-12 17:44:06 787

原创 redis的安装及使用

1.redis的简介1.1 Redis是什么 REmote DIctionary Server(Redis) 是一个由Salvatore Sanfilippo写的key-value存储系统。Redis提供了一些丰富的数据结构，包括 lists, sets, ordered sets 以及 hashes ，当然还有和Memcached一样的 strings结构.Redis当然还包括了对这些数据结构的

2017-09-11 22:46:49 565

原创 centos7下安装lua-5.3.4

Lua的简介Lua是一种轻巧小型的脚本语言，使用C语言编写，其设计的目的就是为内嵌到应用程序中，从而为应用程序提供灵活的拓展和定制功能，所以lua并没有提供庞大的库支持，也不适合作为一门单独的语言进行开发应用程序，一般只作为内嵌在其它应用程序中，实现高性能，高拓展以及定制程序功能的使用。特点 1、轻量级使用C编写，并以源代码开放，编译后大小为100k左右，很方便嵌入应用程序。2、拓展性提供

2017-09-09 12:27:25 4853

原创 hadoop-2.7.3源码编译后支持的4种压缩格式

简介四种压缩格式的优缺点以及应用场景的介绍：1 gzip压缩优点：压缩率比较高，而且压缩/解压速度也比较快；hadoop本身支持，在应用中处理gzip格式的文件就和直接处理文本一样；有hadoop native库；大部分linux系统都自带gzip命令，使用方便。缺点：不支持split。应用场景：当每个文件压缩之后在130M以内的（1个块大小内），都可以考虑用gzip压缩格式。譬如说一天

2017-09-07 14:46:37 780

Java与python

空空如也