- 博客(6)
- 资源 (13)
- 收藏
- 关注
原创 大数据浅谈
本文主要介绍了大数据技术的基本知识,包括MapReduce和YARN的基本原理等。一、大数据概要1.1 定义什么是大数据?对此定义颇多,下面是来自百度百科的解释:大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。《大数据技术原理与应...
2019-06-29 08:14:32 1307
原创 MapReduce实现sql的group by和join
一、group by:HiveQL:select deptno, sum(sal) from emp group by deptno order by deptno;场景模拟:要求计算出每个部门的工资总额。package com.szh.hadoop;import java.io.File;import java.io.IOException;import java.net....
2019-06-18 11:04:01 2232 1
原创 从WordCount了解MapReduce的运行机制
前言大数据环境CDH已搭建完毕,第一个MapReduce程序wordcount也已成功运行,接下来我们需要通过WordCount来了解MapReduce的运行机制。如何大致了解MapReduce的运行机制呢?有两点,(1)源码,对一个搞开发的人来说,我都有你MapReduce所有相关的源码jar包,有你所有的类文件,还能不知道你是怎么执行的吗?当然,要具备一定的源码阅读调试经验和编码功底;...
2019-06-13 23:37:20 648
原创 运行第一个MapReduce程序
本文的环境基于CDH5的搭建https://blog.csdn.net/songzehao/article/details/91044032大数据环境CDH5已搭建成功,自带example也已跑通,总不能老跑人家的mapreduce程序吧,所以是时候跑跑自己写的mr了。怎么写程序先不管,我们先本着拿来主义,或者好听一点说师夷长技以制夷,第一步只是为了成功走完部署运行jar包的流程,至于...
2019-06-12 17:17:01 5905
原创 CDH5如何重新配置主机角色
可能在Cloudera Manager的安装过程中,最初的主机角色配置不够恰当,那之后在使用CDH的过程中,该如何重新配置主机角色呢?
2019-06-10 22:16:31 5371
原创 CDH5搭建
本文介绍了CDH5的搭建步骤及遇到的问题和解决方案。参考自:https://www.cnblogs.com/zhangleisanshi/p/7575579.html及https://www.cnblogs.com/pojishou/archive/2017/01/12/6267616.html准备工作本案例使用公司现成的三台机器,如需自己搭建和配置虚拟机,可参考别的教程。三节...
2019-06-06 17:28:11 2499
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人