大数据爱好者社区-CSDN博客

大数据协作框架“大数据协作框架”其实是一个统称，实际上就是Hadoop 2.x生态系统中几个辅助Hadoop 2.x框架。在此，主要是以下四个框架:数据转换工具Sqoop文件收集库框架Flume任务调度框架Oozie大数据WEB工具Hue选择CDH5.3.x版本框架Cloudera公司发布的CDH 版本，为众多公司所使用，包括国内的京东、一号店、淘宝、百度等电商互联网大中小性公司。Cloudera...

2018-05-13 13:39:36 1142

原创 linux下各文件夹的结构说明及用途介绍

linux下各文件夹的结构说明及用途介绍：/bin：二进制可执行命令。 /dev：设备特殊文件。 /etc：系统管理和配置文件。 /etc/rc.d：启动的配置文件和脚本。 /home：用户主目录的基点，比如用户user的主目录就是/home/user，可以用~user表示。 /lib：标准程序设计库，又叫动态链接共享库，作用类似windows里的.dll文件。 /sb...

2018-05-10 23:12:47 314

原创 Linux系统常用命令权威指南

《一》线上查询及帮助命令（2）1.man man [选项] [命令] 查看命令帮助，命令的词典，更复杂的还有info，但不常用。 #man cd-a 显示所有的手册页，不只是显示第一个-f 只显示命令的功能，而不显示详细的说明文件，跟whatis命令相同-w 不显示手册内容，只显示将被格式化和显示的文件所在位置2.help help [选项] [命令] 查看Linux内置命令的帮助。 help c...

2018-05-10 23:10:29 249

原创关于Hive优化总结

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！问题导读：1、Hive整体架构优化点有哪些？2、如何在MR阶段进行优化？3、Hive在SQL中如何优化？4、Hive框架平台中如何优化？一、整体架构优化现在hive的整体框架如下，计算引擎不仅仅支持Map/Reduce，并且还支持Tez、Spark等。根据不同的计算引擎又可以使用不同的资源调度和存...

2018-05-09 10:41:32 487

原创 maven快速下载jar镜像

<mirror> 　　<id>CN</id> 　　<name>OSChina Central</name> 　　<url>http://maven.oschina.net/content/groups/public/</url> 　　<mirrorOf

2018-05-09 10:36:10 543

原创大数据数据仓库——hive学习权威指南

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！学习hive权威指南目录：ETL介绍大数据平台架构概述系统数据流动 hive概述 hive在hadoop生态系统中 hive体系结构 hive安装及使用 hive客户端的基本语句 hive在HDFS文件系统中的结构修改hive元数据储存的数据库 hive操作命令 ...

2018-05-09 10:21:48 5094

原创 IntelliJ Idea 常用快捷键列表

Ctrl+Shift + Enter，语句完成“！”，否定完成，输入表达式时按 “！”键Ctrl+E，最近的文件Ctrl+Shift+E，最近更改的文件Shift+Click，可以关闭文件Ctrl+[ OR ]，可以跑到大括号的开头与结尾Ctrl+F12，可以显示当前文件的结构Ctrl+F7，可以查询当前元素在当前文件中的引用，然后按 F3 可以选择Ctrl+N，可以快速打开类Ctrl+Shift...

2018-05-09 10:14:40 183

原创 Azkaban用户管理,添加用户，定义组，定义角色

1.Azkaban用户管理在azkaban中${AZKABAN_HOME}/conf/azkaban.properties中的以下配置文件来进行用户的管理。user.manager.class=azkaban.user.XmlUserManageruser.manager.xml.file=/home/bigdata/installed/azkaban-web/conf/azkab...

2019-09-05 10:17:17 1569 1

原创工作流调度器azkaban——权威指南

1. 工作流调度器azkaban1.1 概述1.1.1为什么需要工作流调度系统一个完整的数据分析系统通常都是由大量任务单元组成：shell脚本程序，java程序，mapreduce程序、hive脚本等各任务单元之间存在时间先后及前后依赖关系为了很好地组织起这样的复杂执行计划，需要一个工作流调度系统来调度执行；例如，我们可能有这样一个需求，某个业务系统每天产生20G原始数据，...

2018-07-26 00:18:27 784

转载大数据分析工程师大纲

大数据分析工程师大纲阶段一、业务数据分析师课程一、数据挖掘/分析师之硬技能 - 必备常用工具使用与高级技巧本部分内容主要介绍了数据挖掘、分析师、数据产品经理必备的常用工具的，主要有 Excel，Visio，Xmind，PPT的涉及图表数据分析方面的高级技巧，包括但不限于：数据透视表演练、Vision跨职能流程图演练、Xmind项目计划导图演练、PPT高级动画技巧等...

2018-07-25 15:58:31 5395 9

转载 Azkaban介绍与使用

登录https://localhost:8443注意是https，采用的是jetty ssl链接。输入账号密码azkaban/azkanban（如果你之前没有更改的话）图1 首页首页有四个菜单projects：最重要的部分，创建一个工程，所有flows将在工程中运行。...

2018-07-17 09:20:53 581

转载 Spark性能优化的10大问题及其解决方案

转自: http://book.51cto.com/art/201409/453045.htm 问题1：reduce task数目不合适解决方式：需根据实际情况调节默认配置，调整方式是修改参数spark.default.parallelism。通常，reduce数目设置为core数目的2到3倍。数量太大，造成很多小任务，增加启动任务的开销；数目太少，任务运行缓慢。问题2：shuffle磁盘IO时间...

2018-06-24 22:03:48 435

原创正则表达式规则

字符x字符 x\\反斜线字符\0n带有八进制值 0 的字符 n (0 <= n <= 7)\0nn带有八进制值 0 的字符 nn (0 <= n <= 7)\0mnn带有八进制值 0 的字符 mnn（0 <= m <= 3、0 <= n <= 7）\xhh带有十六进制值 0x 的字符 hh\uhhhh带有十六进制值 0x 的字符 hhhh\t制表符 ...

2018-06-10 12:21:36 298

转载深入解析mapreduce中shuffle的工作原理

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！定义shuffle：针对多个map任务的输出按照不同的分区（Partition）通过网络复制到不同的reduce任务节点上的过程。相应上图中红色框所圈的内容。由图可见Shuffle过程横跨了map，reduce两端，所以为了方便讲解，我们在下面分为两个部分进行讲解：map端和reduce端...

2018-06-08 11:26:45 612

原创彻底理解MapReduce shuffle过程原理

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！MapReduce的Shuffle过程介绍Shuffle的本义是洗牌、混洗，把一组有一定规则的数据尽量转换成一组无规则的数据，越随机越好。MapReduce中的Shuffle更像是洗牌的逆过程，把一组无规则的数据尽量转换成一组具有一定规则的数据。为什么MapReduce计算模型需要Shuffle过...

2018-06-08 11:10:24 554

转载 Java的位运算符详解实例——与（&）、非（~）、或（|）、异或（^）

位运算符主要针对二进制，它包括了：“与”、“非”、“或”、“异或”。从表面上看似乎有点像逻辑运算符，但逻辑运算符是针对两个关系运算符来进行逻辑运算，而位运算符主要针对两个二进制数的位进行逻辑运算。下面详细介绍每个位运算符。1．与运算符与运算符用符号“&”表示，其使用规律如下：两个操作数中位都为1，结果才为1，否则结果为0，例如下面的程序段。public class data13{publi...

2018-06-08 10:52:44 334

原创 Mapreduce & yarn

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！特点:1、分布式并行计算2、主要核心功能：排序，默认的排序方式是按照key进行排序概念定义：1、MapReduce执行流程涉及到Client、ResourceManager、NodeManager、ApplicationMaster、Container、Task2、其中Client是提交Mapr...

2018-06-08 10:47:36 689

转载详细讲解hadoop2的automatic HA+Federation+Yarn配置的教程

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！前言 hadoop是分布式系统，运行在linux之上，配置起来相对复杂。对于hadoop1，很多同学就因为不能搭建正确的运行环境，导致学习兴趣锐减。不过，我有免费的学习视频下载，请点击这里。 hadoop2出来后，解决了hadoop1的几个固有缺陷，比如单点故障、资源利用率低、支...

2018-06-08 09:54:51 693

转载 Zookeeper-Zookeeper leader选举

在上一篇文章中我们大致浏览了zookeeper的启动过程，并且提到在Zookeeper的启动过程中leader选举是非常重要而且最复杂的一个环节。那么什么是leader选举呢？zookeeper为什么需要leader选举呢？zookeeper的leader选举的过程又是什么样子的？本文的目的就是解决这三个问题。首先我们来看看什么是leader选举。其实这个很好理解，leader选举就像总统选举一样...

2018-06-08 09:27:33 552

转载 Zookeeper的功能以及工作原理

Zookeeper的功能以及工作原理1.ZooKeeper是什么？ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，它是集群的管理者，监视着集群中各个节点的状态根据节点提交的反馈进行下一步合理操作。最终，将简单易用的接口和性能高效、功能稳定的系统提供给用户2.ZooKeeper提供了什么？1)文件系统2)通知机制3.Zookeeper文...

2018-06-08 09:21:43 245

原创 linux如何用fdisk命令分区

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！fdisk命令常用参数格式：fdisk [参数] 设备文件fdisk -l ，列出指定的外围设备的分区表状况fdisk 设备文件，对硬盘进行分区1 2 3例子：1.首先，再添加一块虚拟硬盘完成，打开虚拟机即可。2.用fdisk -l命令查看硬盘的详细...

2018-06-01 00:37:38 19059

转载大数据框架——pig学习权威指南

应用场景Pig并不适合所有的数据处理任务，和MapReduce一样，它是为数据批处理而设计的，如果想执行的查询只涉及一个大型数据集的一小部分数据，Pig的实现不会很好，因为它要扫描整个数据集或其中很大一部分。随着新版本发布，Pig的表现和原生MapRedece程序差距越来越小，因为Pig的开发团队使用了复杂、精巧的算法来实现Pig的关系操作。除非你愿意花大量时间来优化Java MapReduce...

2018-05-27 22:20:02 1148

转载 Hadoop 学习笔记一基础知识及常用命令

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！了解Hadoop简介 Hadoop目前属于Apache基金会，是针对海量数据处理的理想工具。我的学习教材主要是Hadoop权威指南（中文版）。 Hadoop起源于Nutch，在Yahoo的帮助下，Nutch的分布式运算这部分被独立出来，命名为Hadoop。Hadoop克隆了Google运行系统...

2018-05-27 22:19:16 699

转载 MapReduce-TopK

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！上一篇博客中简单的写了一个MapReduce的程序，其中只重写了map()和reduce()方法，但里面还有cleanup(Context context)，setup(Context context）和run(Context context)方法可以可以重写这一个实例，我们就说明一下cleanup(Co...

2018-05-27 21:46:40 739

转载 MapReduce-Join中级优化-hadoop自带datajoin的解决方法

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！接着上一篇《MapReuce-Join操作-初级优化》这一篇博客继续说明MapReduce对于Join的操作，这里使用hadoop包中自带的datajoin包来处理，如果是hadoop1.x则包在${HADOOP_HOME}/contrib/datajoin文件夹下。如果是hadoop2.x则该包在${H...

2018-05-27 21:43:57 292

转载 MapReuce-Join操作-初级优化

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！在上一篇《MapReduce-Join操作-初体验》的结论中说明了上述join方法的不足之处，这一篇中将说明针对上一篇的几个缺陷进行一些一些改进，主要是针对上一篇提到几点：1.效率低是因为在reduce端遍历了两次集合2.资源的消耗大是因为重新创建了List来放几乎所有的迭代器中的数据3.不能适用于所有的...

2018-05-27 21:41:47 282

转载 MapReduce-Join操作-初体验

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！这一篇博客说说mapreduce的join问题，根据join的文件分别的数据量的大小，可以使用以下几种方式可以选择1.repartition join -- reduce-side join 适用于合并两人个或多个更多的大型数据2.replication join -- map-side join 适用于...

2018-05-27 21:38:24 265

转载 MapReduce-XML处理-自定义OutputFormat以及自定义RecordWriter

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！这一篇紧接上一篇博客《MapReduce-XML处理-自定义InputFormat及自定义RecordReader》，上一篇是说明InputFormat和RecordReader，这里说明OutputFormat以及RecordWriter的定制，下面是这次测试的要求：输入数据：<configura...

2018-05-27 21:30:02 474

转载 MapReduce-XML处理-自定义InputFormat及自定义RecordReader

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！这一篇说明如何自定义InputFormat以及RecordReader这两个组件，通过使用mapreduce处理xml文件格式的文件来说明其用法，这一个例子来自《hadoop硬实战》一书的技术点12讲解的用法，如果有说明得不清楚的可以自行进行查阅下面就来说说这个实例要达到的目的以下是输入数据：<co...

2018-05-27 15:49:34 839

转载 Hadoop二次排序及MapReduce处理流程实例详解

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！一、概述MapReduce框架对处理结果的输出会根据key值进行默认的排序，这个默认排序可以满足一部分需求，但是也是十分有限的，在我们实际的需求当中，往往有要对reduce输出结果进行二次排序的需求。对于二次排序的实现，网络上已经有很多人分享过了，但是对二次排序的实现原理及整个MapReduce框架的...

2018-05-27 12:31:31 357

原创在Windows下开发hadoop

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！1、安装Myeclipse（这还用说嘛？？？）2、将hadoop-eclipse-plugin-2.6.0.jar（这个jar百度下应该是有的）这个jar放在Myeclipse的安装目录的plugins3、在Windows解压hadoop-2.5.0.tar.gz，然后配置hadoop的环境变量（...

2018-05-27 10:22:42 473

原创 lombok注解介绍以及使用——lombok学习权威指南

lombok注解介绍lombok注解文档 lombok官网下载lombok是一个可以帮助我们简化java代码编写的工具类，尤其是简化javabean的编写，即通过采用注解的方式，消除代码中的构造方法，getter/setter等代码，使我们写的类更加简洁，当然，这带来的副作用就是不易阅读…不过，还是能看得懂吧，废话不多说，先看一下lombok支持的一些常见的注解。@NonNull@Cleanup@...

2018-05-26 10:46:49 546

原创将Centos的yum源更换为国内的阿里云源

1、备份mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup2、下载新的CentOS-Base.repo 到/etc/yum.repos.d/CentOS 5wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyun.com/re...

2018-05-17 12:24:39 200

原创 HBase性能优化方法总结

1. 表的设计1.1 Pre-Creating Regions默认情况下，在创建HBase表的时候会自动创建一个region分区，当导入数据的时候，所有的HBase客户端都向这一个region写数据，直到这个region足够大了才进行切分。一种可以加快批量写入速度的方法是通过预先创建一些空的regions，这样当数据写入HBase时，会按照region分区情况，在集群内做数据的负载均衡。有关预分区...

2018-05-15 11:14:57 241

原创 Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/filter/Filter

在使用MapReduce 和HBase结合时候，在运行程序的时候，会出现 Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/hbase/filter/Filter错误原因是Hadoop的运行环境中缺少HBase支持的jar包，按照如下方法可以解决：1. 关闭hadoop进程（所有）2. 在had...

2018-05-14 22:30:00 17044 3

原创 cdh版本的flume安装以及配置

Apache版本下载地址：http://archive.apache.org/dist/flume/CDH版本下载地址：http://archive.cloudera.com/cdh5/cdh/5/flume-ng-1.5.0-cdh5.3.6.tar.gzsystem requrequirements1、安装解压缩tar -zxvf /opt/softwares/flume-ng-1.5.0-c...

2018-05-14 17:18:11 6822

转载这样的简历HR才会看----个人整理

在简历求职的过程中，求职者最重视的恐怕就是写简历的技巧和思路了，而投递简历的方式却往往被求职者忽视，简历投递的方式、邮箱的使用和管理，都可能影响HR看到简历时对你的印象。下面是小编为大家整理的用个人邮箱投递简历时可能遇到的问题及解决办法：　　1.求职邮箱如何管理？　　虽然只是一个小小的邮箱，却是我们求职路上的必备工具，因此要精心包装：　　(1)邮箱的选择，选择一个比较正式的偏商务性质的邮箱，尽量避...

2018-05-14 17:17:59 999

转载如何写好简历

阿里感悟（十）如何写好简历我在工作中筛选过几百封简历，也推荐过上百封简历。发现很多求职者的简历写得有不如意的地方，有的写得太简单缺少必要信息，有的又写得太多没有突出重点。如果是找我推荐的，每次我都会让他们修改，为了让更多的同学写出高质量的简历，本文介绍下如何写好简历。一什么是简历简历是突出自我亮点的工作或学习经历和自我介绍。所以写简历要把握两个重点，工作经历要突出重点，自我介绍要写全。二如何...

2018-05-14 17:16:00 673 1

原创 hive表中解决乱码策略

友情提示：更多有关大数据、人工智能方面技术文章请关注博主个人微信公众号：高级大数据架构师！修改编码,设置为utf-8 在 mysql 配置文件/etc/my.cnf（不需要拷贝）中[mysqld]的下面增加以下内容 init_connect='SET collation_connection = utf8_unicode_ci' init_connect='SET NA...

2018-05-13 14:34:40 991

空空如也

空空如也