Forever_ck-CSDN博客

原创三秒＋一个小Demo，轻松掌握Hive中的列转行、行转列！！！

闲话少叙，直接开干！先看Demo：一、行转列首先，我们需要收集数据，创建一个文件，内容如下：一、启动Hive，创建表并导入数据：1.1 创建表 create table test(name string,xingzuo string,xuexing string) row format delimited fields delimated by "\t";1.2 导入数据...

2018-11-29 19:52:43 353

原创大数据数仓之Hive入门《一》

一、Hive 基本概念1.1 什么是 HiveHive：由 Facebook 开源用于解决海量结构化日志的数据统计。它是基于 Hadoop 的一个数据仓库工具，可以将结构化的数据文件映射为一张表，并提供类 SQL 查询功能。本质就是：将HQL 转化成 MapReduce 程序1）Hive 处理的数据存储在 HDFS2）Hive 分析数据底层的实现是 MapReduce3）执行程序运...

2018-11-29 18:53:43 714

原创 MapReduce中的HelloWorld，安排一下？

相信绝大多数程序员在看到 HelloWorld这个词的时候，总会情不自禁的翘起嘴角吧！虽然早已离开了校园，但每每看到这个词，我总会自然而然地想起曾经和我的那群“狐朋狗友”在大学里肆无忌惮敲代码的日子。。。似乎有点跑题了（尴尬脸），看了上篇的原理，是不是手痒，想来操作一下了！https://blog.csdn.net/Forever_ck/article/details/84589932下面我...

2018-11-28 19:26:48 741

原创关于MapReduce详细工作流程，你真的都知道吗？？

毫无疑问，Hadoop 里面最复杂的是MapReduce，那么今天咱们就来看看它的整体工作流程：怎么样？是不是懵了？简单说下我的理解：上面的流程是整个 mapreduce 最全工作流程，但是 shuffle 过程只是从第 7 步开始到第16 步结束，具体 shuffle 过程详解，如下：1） maptask收集我们的 map()方法输出的 kv对，放到内存缓冲区中2）从内存缓冲区不...

2018-11-28 18:20:52 503

原创关于Hadoop集群中使用SSH免密登录的详细操作！

很多时候，在我们操作不同的虚拟机时，常常因为一些需要密码的操作，因此，各虚拟机之间的免密设置必不可少。那么这篇我们就来介绍关于虚拟机之间配置SSH免密操作的详细流程！准备条件：两台以上的虚拟机，因为想要给大家介绍关于Hadoop集群的搭建，所以我这边准备了三台虚拟机，分别为： hadoop01,hadoop02,hadoop03闲话少叙，开始咯：重点：你要确保你有操作权限，这一点一定要记得！...

2018-11-26 20:20:09 773

原创 Linux命令大全《下》

补充一下上篇没有介绍完的Linux命令，上篇命令 https://blog.csdn.net/Forever_ck/article/details/84553672好了，不说废话了，直接进入正题：命令补充：grep MemTotal /proc/meminfo 查看总内存find / -size +200M -exec du -h {} \ 查看超过200M的文件grep MemFr...

2018-11-26 18:52:31 202

原创 Linux命令大全《上》

闲来无事，今天给大家介绍一些 linux 的常用命令，希望能对大家有所帮助！一、存储方式：Linux 里面的存储方式都是文件二、目录操作 cd / 切换到系统根目录 cd ../ 切回上级目录 cd + 目录名切换到该目录 cd - 切换到选择该目录之前所在的目录 mkdir + 目录名称创...

2018-11-26 17:54:40 307

原创大数据Hadoopx之HDFS模块中那些你可能不知道的小知识！

再给大家分享一些小知识，一起来瞧瞧吧！一、namenode & secondarynamenode　　1）namenode启动（namenode格式化时会创建fsimage，edits两个文件，如果不是第一次启动，会直接加载这两个文件到内存）。　　2）secondarynamenode向namenode发出请求执行checkpoint（默认是一个小时请求执行一次，或者操作达到一百万...

2018-11-24 09:50:23 282

原创大数据Hadoop之HDFS模块《二》

上篇我们介绍了hdfs的一些概念和优缺点那么我们这篇便来说说hdfs的读写流程和一些常用的命令：《一》读写流程一、hdfs 读流程（下载文件）　1） client向namenode发出下载请求，namenode查询元数据信息，找到文件块所在的datanode，返回给client。　　　2） client从返回的datanode中选择（就近原则，再随机）一...

2018-11-24 09:15:05 312

原创两种超详细的远程连接工具介绍（从安装到使用）

众所周知，个人电脑与服务器不同，服务器一般都是运行在IDC机房中，我们通常不会直接接触到服务器硬件，而是通过各种远程方式对服务器进行控制。于是远程连接工具便应运而生了，下面简单介绍几种常用的 linux 连接工具。 **一、SecureCRTSecureCRT简介** SecureCRT是一款支持SSH（SSH1和SSH2）的终端仿真程序，简单地说是Windows下登录UN...

2018-11-22 20:03:03 2313

原创超详细的Spark任务流程图带你走进Spark!

一道简单的命令下去 … … 10秒过去了， … … 20秒过去了， … … 哇，报错了。。。相信这种场景在我们用 Mapreduce 处理数据的时候相当常见吧，不得不说，Mapreduce 的处理速度有时候真的让我们不敢恭维，那么我们今天就来学习一下号称比它快了 N 倍的Spark。先来看一下Spark的整体任务流程图第一步：调用RDD上的方法构建DAG第二步：DAGSchedule将S...

2018-11-21 21:15:10 2043

原创 Maven镜像更换为阿里云仓库

Maven仓库默认在国外，使用起来真的很慢，尤其是下载依赖的时候。换为国内镜像 , 可以大大提高运行速度。下面为大家提供一个阿里云仓库地址，希望能对有需要的朋友们有所帮助。《亲测有效》 ...

2018-10-10 18:26:05 180

原创 Hadoop学习常见错误

一、关于安装 1. 在Hadoop全分布环境搭建中，记得每台服务器上都需要安装 JDK 2. 安装Hadoop完毕后，除了需要配置环境变量外，还需要修改多个配置文件，缺一不可。文件位置在你指定路径安装的Hadoop下的 /etc/hadoop/ 目录下。需要修改的配置文件： hadoop-env.sh...

2018-10-06 08:33:37 242

原创常用Linux远程连接工具汇总

众所周知，个人电脑与服务器不同，服务器一般都是运行在IDC机房中，我们通常不会直接接触到服务器硬件，而是通过各种远程方式对服务器进行控制。于是远程连接工具便应运而生了，下面简单介绍几种常用的 linux 连接工具。一、SecureCRT SecureCRT简介 SecureCR...

2018-09-15 10:33:08 20115

原创 Linux 简单命令

linux 里面存储方式都是文件一、关于目录 cd / 切换到系统根目录 cd ../ 回到上级目录 cd 目录名切换到该目录 cd - ...

2018-09-09 20:18:04 228

原创浅谈 java 设计模式之备忘录模式

“卧槽！”，小A一声极其粗鲁的怒骂瞬间打破了公司午后的宁静。 “你这是怎么了？”，号称公司“八卦第一人”的小B瞬间到达了战场。 “这两天我不是一直在找x项目中的bug吗，就在刚才，还没来得及体会找到bug的喜悦，电脑死机了！”小A愤愤的说到。 “ 那你再重新找一下不就行了。”，小C一脸轻松地走过来。 ...

2018-08-11 21:45:20 247

Forever_ck的博客