- 博客(56)
- 资源 (1)
- 收藏
- 关注
原创 三秒+一个小Demo,轻松掌握Hive中的 列转行、行转列!!!
闲话少叙,直接开干!先看Demo:一、行转列首先,我们需要收集数据,创建一个文件,内容如下:一、启动Hive,创建表并导入数据:1.1 创建表 create table test(name string,xingzuo string,xuexing string) row format delimited fields delimated by "\t";1.2 导入数据...
2018-11-29 19:52:43
353
原创 大数据数仓之Hive入门《一》
一 、Hive 基本概念1.1 什么是 HiveHive:由 Facebook 开源用于解决海量结构化日志的数据统计。它是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类 SQL 查询功能。本质就是:将HQL 转化成 MapReduce 程序1)Hive 处理的数据存储在 HDFS2)Hive 分析数据底层的实现是 MapReduce3)执行程序运...
2018-11-29 18:53:43
714
原创 MapReduce中的HelloWorld,安排一下?
相信绝大多数程序员在看到 HelloWorld这个词的时候,总会情不自禁的翘起嘴角吧!虽然早已离开了校园,但每每看到这个词,我总会自然而然地想起曾经和我的那群“狐朋狗友”在大学里肆无忌惮敲代码的日子。。。似乎有点跑题了(尴尬脸),看了上篇的原理,是不是手痒,想来操作一下了!https://blog.csdn.net/Forever_ck/article/details/84589932下面我...
2018-11-28 19:26:48
741
原创 关于MapReduce详细工作流程,你真的都知道吗??
毫无疑问,Hadoop 里面最复杂的是MapReduce,那么今天咱们就来看看它的整体工作流程:怎么样?是不是懵了?简单说下我的理解:上面的流程是整个 mapreduce 最全工作流程,但是 shuffle 过程只是从第 7 步开始到第16 步结束,具体 shuffle 过程详解,如下:1) maptask收集我们的 map()方法输出的 kv对,放到内存缓冲区中2) 从内存缓冲区不...
2018-11-28 18:20:52
503
原创 关于Hadoop集群中使用SSH免密登录的详细操作!
很多时候,在我们操作不同的虚拟机时,常常因为一些需要密码的操作,因此,各虚拟机之间的免密设置必不可少。那么这篇我们就来介绍关于虚拟机之间配置SSH免密操作的详细流程!准备条件:两台以上的虚拟机,因为想要给大家介绍关于Hadoop集群的搭建,所以我这边准备了三台虚拟机,分别为: hadoop01,hadoop02,hadoop03闲话少叙,开始咯:重点:你要确保你有操作权限,这一点一定要记得!...
2018-11-26 20:20:09
773
原创 Linux命令大全《下》
补充一下上篇没有介绍完的Linux命令,上篇命令 https://blog.csdn.net/Forever_ck/article/details/84553672好了,不说废话了,直接进入正题:命令补充:grep MemTotal /proc/meminfo 查看总内存find / -size +200M -exec du -h {} \ 查看超过200M的文件grep MemFr...
2018-11-26 18:52:31
202
原创 Linux命令大全《上》
闲来无事,今天给大家介绍一些 linux 的常用命令,希望能对大家有所帮助!一、存储方式:Linux 里面的存储方式都是文件 二、目录操作 cd / 切换到系统根目录 cd ../ 切回上级目录 cd + 目录名 切换到该目录 cd - 切换到选择该目录之前所在的目录 mkdir + 目录名称 创...
2018-11-26 17:54:40
307
原创 大数据Hadoopx之HDFS模块中那些你可能不知道的小知识!
再给大家分享一些小知识,一起来瞧瞧吧!一、namenode & secondarynamenode 1)namenode启动(namenode格式化时会创建fsimage,edits两个文件,如果不是第一次启动,会直接加载这两个文件到内存)。 2)secondarynamenode向namenode发出请求执行checkpoint(默认是一个小时请求执行一次,或者操作达到一百万...
2018-11-24 09:50:23
282
原创 大数据Hadoop之HDFS模块《二》
上篇我们介绍了hdfs的一些概念和优缺点那么我们这篇便来说说hdfs的读写流程和一些常用的命令: 《一》读写流程 一、hdfs 读流程(下载文件) 1) client向namenode发出下载请求,namenode查询元数据信息,找到文件块所在的datanode,返回给client。 2) client从返回的datanode中选择(就近原则,再随机)一...
2018-11-24 09:15:05
312
原创 两种超详细的远程连接工具介绍(从安装到使用)
众所周知,个人电脑与服务器不同,服务器一般都是运行在IDC机房中,我们通常不会直接接触到服务器硬件,而是通过各种远程方式对服务器进行控制。于是远程连接工具便应运而生了,下面简单介绍几种常用的 linux 连接工具。 **一、SecureCRTSecureCRT简介** SecureCRT是一款支持SSH(SSH1和SSH2)的终端仿真程序,简单地说是Windows下登录UN...
2018-11-22 20:03:03
2313
原创 超详细的Spark任务流程图带你走进Spark!
一道简单的命令下去 … … 10秒过去了, … … 20秒过去了, … … 哇,报错了。。。相信这种场景在我们用 Mapreduce 处理数据的时候相当常见吧,不得不说,Mapreduce 的处理速度有时候真的让我们不敢恭维,那么我们今天就来学习一下号称比它快了 N 倍的Spark。先来看一下Spark的整体任务流程图第一步:调用RDD上的方法构建DAG第二步:DAGSchedule将S...
2018-11-21 21:15:10
2043
原创 Maven镜像更换为阿里云仓库
Maven仓库默认在国外,使用起来真的很慢,尤其是下载依赖的时候。 换为国内镜像 , 可以大大提高运行速度。下面为大家提供一个阿里云仓库地址, 希望能对有需要的朋友们有所帮助。《亲测有效》 ...
2018-10-10 18:26:05
180
原创 Hadoop学习常见错误
一、关于安装 1. 在Hadoop全分布环境搭建中,记得每台服务器上都需要安装 JDK 2. 安装Hadoop完毕后,除了需要配置环境变量外,还需要修改多个配置文件,缺一不可。文件位置在你指定路径安装的Hadoop下 的 /etc/hadoop/ 目录下。 需要修改的配置文件: hadoop-env.sh...
2018-10-06 08:33:37
242
原创 常用Linux远程连接工具汇总
众所周知,个人电脑与服务器不同,服务器一般都是运行在IDC机房中,我们通常不会直接接触到服务器硬件,而是通过各种远程方式对服务器进行控制。于是远程连接工具便应运而生了,下面简单介绍几种常用的 linux 连接工具。 一、SecureCRT SecureCRT简介 SecureCR...
2018-09-15 10:33:08
20115
原创 Linux 简单命令
linux 里面存储方式都是文件 一、关于目录 cd / 切换到系统根目录 cd ../ 回到上级目录 cd 目录名 切换到该目录 cd - ...
2018-09-09 20:18:04
228
原创 浅谈 java 设计模式之 备忘录模式
“卧槽!”,小A一声极其粗鲁的怒骂瞬间打破了公司午后的宁静。 “你这是怎么了?”,号称公司“八卦第一人”的小B瞬间到达了战场。 “这两天我不是一直在找x项目中的bug吗,就在刚才,还没来得及体会找到bug的喜悦,电脑死机了!”小A愤愤的说到。 “ 那你再重新找一下不就行了。”,小C一脸轻松地走过来。 ...
2018-08-11 21:45:20
247
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅