自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(56)
  • 资源 (1)
  • 收藏
  • 关注

原创 三秒+一个小Demo,轻松掌握Hive中的 列转行、行转列!!!

闲话少叙,直接开干!先看Demo:一、行转列首先,我们需要收集数据,创建一个文件,内容如下:一、启动Hive,创建表并导入数据:1.1 创建表 create table test(name string,xingzuo string,xuexing string) row format delimited fields delimated by "\t";1.2 导入数据...

2018-11-29 19:52:43 353

原创 大数据数仓之Hive入门《一》

一 、Hive 基本概念1.1 什么是 HiveHive:由 Facebook 开源用于解决海量结构化日志的数据统计。它是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。本质就是:将HQL 转化成 MapReduce 程序1)Hive 处理的数据存储在 HDFS2)Hive 分析数据底层的实现是 MapReduce3)执行程序运...

2018-11-29 18:53:43 714

原创 MapReduce中的HelloWorld,安排一下?

相信绝大多数程序员在看到 HelloWorld这个词的时候,总会情不自禁的翘起嘴角吧!虽然早已离开了校园,但每每看到这个词,我总会自然而然地想起曾经和我的那群“狐朋狗友”在大学里肆无忌惮敲代码的日子。。。似乎有点跑题了(尴尬脸),看了上篇的原理,是不是手痒,想来操作一下了!https://blog.csdn.net/Forever_ck/article/details/84589932下面我...

2018-11-28 19:26:48 741

原创 关于MapReduce详细工作流程,你真的都知道吗??

毫无疑问,Hadoop 里面最复杂的是MapReduce,那么今天咱们就来看看它的整体工作流程:怎么样?是不是懵了?简单说下我的理解:上面的流程是整个 mapreduce 最全工作流程,但是 shuffle 过程只是从第 7 步开始到第16 步结束,具体 shuffle 过程详解,如下:1) maptask收集我们的 map()方法输出的 kv对,放到内存缓冲区中2) 从内存缓冲区不...

2018-11-28 18:20:52 503

原创 关于Hadoop集群中使用SSH免密登录的详细操作!

很多时候,在我们操作不同的虚拟机时,常常因为一些需要密码的操作,因此,各虚拟机之间的免密设置必不可少。那么这篇我们就来介绍关于虚拟机之间配置SSH免密操作的详细流程!准备条件:两台以上的虚拟机,因为想要给大家介绍关于Hadoop集群的搭建,所以我这边准备了三台虚拟机,分别为: hadoop01,hadoop02,hadoop03闲话少叙,开始咯:重点:你要确保你有操作权限,这一点一定要记得!...

2018-11-26 20:20:09 773

原创 Linux命令大全《下》

补充一下上篇没有介绍完的Linux命令,上篇命令 https://blog.csdn.net/Forever_ck/article/details/84553672好了,不说废话了,直接进入正题:命令补充:grep MemTotal /proc/meminfo 查看总内存find / -size +200M -exec du -h {} \ 查看超过200M的文件grep MemFr...

2018-11-26 18:52:31 202

原创 Linux命令大全《上》

闲来无事,今天给大家介绍一些 linux 的常用命令,希望能对大家有所帮助!一、存储方式:Linux 里面的存储方式都是文件 二、目录操作 cd / 切换到系统根目录 cd ../ 切回上级目录 cd + 目录名 切换到该目录 cd - 切换到选择该目录之前所在的目录 mkdir + 目录名称 创...

2018-11-26 17:54:40 307

原创 大数据Hadoopx之HDFS模块中那些你可能不知道的小知识!

再给大家分享一些小知识,一起来瞧瞧吧!一、namenode & secondarynamenode  1)namenode启动(namenode格式化时会创建fsimage,edits两个文件,如果不是第一次启动,会直接加载这两个文件到内存)。  2)secondarynamenode向namenode发出请求执行checkpoint(默认是一个小时请求执行一次,或者操作达到一百万...

2018-11-24 09:50:23 282

原创 大数据Hadoop之HDFS模块《二》

上篇我们介绍了hdfs的一些概念和优缺点那么我们这篇便来说说hdfs的读写流程和一些常用的命令: 《一》读写流程 一、hdfs 读流程(下载文件)  1) client向namenode发出下载请求,namenode查询元数据信息,找到文件块所在的datanode,返回给client。    2) client从返回的datanode中选择(就近原则,再随机)一...

2018-11-24 09:15:05 312

原创 两种超详细的远程连接工具介绍(从安装到使用)

众所周知,个人电脑与服务器不同,服务器一般都是运行在IDC机房中,我们通常不会直接接触到服务器硬件,而是通过各种远程方式对服务器进行控制。于是远程连接工具便应运而生了,下面简单介绍几种常用的 linux 连接工具。 **一、SecureCRTSecureCRT简介** SecureCRT是一款支持SSH(SSH1和SSH2)的终端仿真程序,简单地说是Windows下登录UN...

2018-11-22 20:03:03 2313

原创 超详细的Spark任务流程图带你走进Spark!

一道简单的命令下去 … … 10秒过去了, … … 20秒过去了, … … 哇,报错了。。。相信这种场景在我们用 Mapreduce 处理数据的时候相当常见吧,不得不说,Mapreduce 的处理速度有时候真的让我们不敢恭维,那么我们今天就来学习一下号称比它快了 N 倍的Spark。先来看一下Spark的整体任务流程图第一步:调用RDD上的方法构建DAG第二步:DAGSchedule将S...

2018-11-21 21:15:10 2043

原创 Maven镜像更换为阿里云仓库

Maven仓库默认在国外,使用起来真的很慢,尤其是下载依赖的时候。 换为国内镜像 , 可以大大提高运行速度。下面为大家提供一个阿里云仓库地址, 希望能对有需要的朋友们有所帮助。《亲测有效》 ...

2018-10-10 18:26:05 180

原创 Hadoop学习常见错误

一、关于安装 1. 在Hadoop全分布环境搭建中,记得每台服务器上都需要安装 JDK 2. 安装Hadoop完毕后,除了需要配置环境变量外,还需要修改多个配置文件,缺一不可。文件位置在你指定路径安装的Hadoop下 的 /etc/hadoop/ 目录下。 需要修改的配置文件: hadoop-env.sh...

2018-10-06 08:33:37 242

原创 常用Linux远程连接工具汇总

众所周知,个人电脑与服务器不同,服务器一般都是运行在IDC机房中,我们通常不会直接接触到服务器硬件,而是通过各种远程方式对服务器进行控制。于是远程连接工具便应运而生了,下面简单介绍几种常用的 linux 连接工具。 一、SecureCRT SecureCRT简介 SecureCR...

2018-09-15 10:33:08 20115

原创 Linux 简单命令

linux 里面存储方式都是文件 一、关于目录 cd / 切换到系统根目录 cd ../ 回到上级目录 cd 目录名 切换到该目录 cd - ...

2018-09-09 20:18:04 228

原创 浅谈 java 设计模式之 备忘录模式

“卧槽!”,小A一声极其粗鲁的怒骂瞬间打破了公司午后的宁静。 “你这是怎么了?”,号称公司“八卦第一人”的小B瞬间到达了战场。 “这两天我不是一直在找x项目中的bug吗,就在刚才,还没来得及体会找到bug的喜悦,电脑死机了!”小A愤愤的说到。 “ 那你再重新找一下不就行了。”,小C一脸轻松地走过来。 ...

2018-08-11 21:45:20 247

大数据Hadoop核心之MapReduce详解

大数据Hadoop核心模块之MapReduce,文档有概念、案例、代码,Mapreduce中,不可多得文档!

2019-01-17

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除