Hadoop
DayDayUp丶
Good Good Study, Day Day Up!
展开
-
CDH5如何重新配置主机角色
可能在Cloudera Manager的安装过程中,最初的主机角色配置不够恰当,那之后在使用CDH的过程中,该如何重新配置主机角色呢?原创 2019-06-10 22:16:31 · 5247 阅读 · 0 评论 -
运行第一个MapReduce程序
本文的环境基于CDH5的搭建https://blog.csdn.net/songzehao/article/details/91044032大数据环境CDH5已搭建成功,自带example也已跑通,总不能老跑人家的mapreduce程序吧,所以是时候跑跑自己写的mr了。怎么写程序先不管,我们先本着拿来主义,或者好听一点说师夷长技以制夷,第一步只是为了成功走完部署运行jar包的流程,至于...原创 2019-06-12 17:17:01 · 5689 阅读 · 0 评论 -
CDH5搭建
本文介绍了CDH5的搭建步骤及遇到的问题和解决方案。参考自:https://www.cnblogs.com/zhangleisanshi/p/7575579.html及https://www.cnblogs.com/pojishou/archive/2017/01/12/6267616.html准备工作本案例使用公司现成的三台机器,如需自己搭建和配置虚拟机,可参考别的教程。三节...原创 2019-06-06 17:28:11 · 2430 阅读 · 0 评论 -
从WordCount了解MapReduce的运行机制
前言大数据环境CDH已搭建完毕,第一个MapReduce程序wordcount也已成功运行,接下来我们需要通过WordCount来了解MapReduce的运行机制。如何大致了解MapReduce的运行机制呢?有两点,(1)源码,对一个搞开发的人来说,我都有你MapReduce所有相关的源码jar包,有你所有的类文件,还能不知道你是怎么执行的吗?当然,要具备一定的源码阅读调试经验和编码功底;...原创 2019-06-13 23:37:20 · 603 阅读 · 0 评论 -
MapReduce实现sql的group by和join
一、group by:HiveQL:select deptno, sum(sal) from emp group by deptno order by deptno;场景模拟:要求计算出每个部门的工资总额。package com.szh.hadoop;import java.io.File;import java.io.IOException;import java.net....原创 2019-06-18 11:04:01 · 2148 阅读 · 1 评论 -
Hadoop的进程汇总
本文大数据环境CDH5,搭建步骤:https://blog.csdn.net/songzehao/article/details/91044032基于此环境,对Hadoop中的进程进行梳理。主节点jps查看java进程:主节点查看python进程(Hue是python进程):Cloudera Manager查看主节点进程:与jps和ps -aux|gre...原创 2019-07-04 15:07:53 · 4823 阅读 · 0 评论 -
大数据浅谈
本文主要介绍了大数据技术的基本知识,包括MapReduce和YARN的基本原理等。一、大数据概要1.1 定义什么是大数据?对此定义颇多,下面是来自百度百科的解释:大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。《大数据技术原理与应...原创 2019-06-29 08:14:32 · 1255 阅读 · 0 评论