自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(12)
  • 收藏
  • 关注

原创 Hive的基本操作

创建数据库与创建数据库表 创建数据库操作 创建数据库 create database if not exists myhive; 切换数据库 use myhive; 说明:hive的表存放位置模式是由hive-site.xml当中的一个属性指定的 <name>hive.metastore.warehouse.dir</name> <value>/u...

2019-11-23 14:49:44 3201 1

原创 HIVE的安装部署

我们在此处选择第三台机器作为我们hive的安装机器 derby版hive直接使用: 解压hive cd /export/softwares tar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C …/servers/ 直接启动 bin/hive cd …/servers/ cd hive-1.1.0-cdh5.14.0/ bin/hive hive> cre...

2019-11-19 21:34:41 3188 1

原创 Hive介绍

Hive基本概念 Hive简介 什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能(HQL)。 其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,hive可以理解为一个将SQL转换为MapReduce的任务的工具。 为什么使用Hive  直接使用hadoop所面临的问题 人员学习成本...

2019-11-19 16:53:33 3779 1

原创 MR从读取数据开始到将最终结果写入HDFS经过哪些步骤(数据层面和内存层面)

数据层面 第一步:inputformat数据读取 | | 输出给Split | | 第二步:split进行数据逻辑切分 | | 输出给RR | | 第三步:recordReader(将数据以\n切分,进行再次切分,并输出key(行首偏移量),value(一行的数据)) | | 输出给Map | | 第四步:Map接受key(行首偏移量),value(一行的数据),根域业务需求编写代码,输出(key...

2019-11-16 10:59:47 3892

原创 相同手机号的数据存入到按当前按手机号进行命名的文件当中(多文件输入输出)

import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException; /** * @author huangdonghu * @version 1.0 * @dat...

2019-11-15 08:32:29 3231 1

原创 让我们一起来认识和学习一下MapReduce吧

理解MapReduce思想 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用于大量复杂的任务处理场景(大规模数据处理场景)。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想,而不是自己原创。 Map负责“分”,即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算,彼此间几乎没有依赖...

2019-11-13 08:17:11 3262 2

原创 HDFS的javaAPI操作

创建maven工程并导入jar包 由于cdh版本的所有的软件涉及版权的问题,所以并没有将所有的jar包托管到maven仓库当中去,而是托管在了CDH自己的服务器上面,所以我们默认去maven的仓库下载不到,需要自己手动的添加repository去CDH仓库进行下载,以下两个地址是官方文档说明,请仔细查阅 https://www.cloudera.com/documentation/enterpri...

2019-11-07 20:12:14 3259 2

原创 HDFS新增节点与删除节点

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入 欢迎使用Ma...

2019-11-06 21:23:59 3327

原创 HDFS的shell命令操作

通过如下的命令可以获取所有的参数 [root@node01 Hadoop-2.6.0-cdh5.14.0]# bin/hdfs dfs Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src>...

2019-11-05 16:13:51 3221

原创 分布式CAP 定理

历史 这个定理起源于柏克莱加州大学University of California, Berkeley的计算机科学家埃里克·布鲁尔在2000年的分布式计算原则研讨会(Symposium on Principles of Distributed Computing(PODC))上提出的一个猜想。 在2002年,麻省理工学院(MIT)的赛斯·吉尔伯特和南希·林奇发表了布鲁尔猜想的证明,使之成为一个定理...

2019-11-05 15:16:17 3303

原创 大数据为什么这么快?

首先我们先了解一下高铁为什么比老式火车快? 在这里我们拿传统数据和大数据处理服务器系统安装来进行一个对比 传统数据下服务器系统安装 大数据下服务器系统安装 传统数据与大数据处理方式对比 ...

2019-11-04 09:37:08 3289 2

原创 大数据hadoop集群安装部署

目录 准备工作 准备工作 准备一台linux环境,内存4G或以上,硬盘40G或以上,我们这里使用的是Centos6.9 64位的操作系统(注意:一定要使用64位的操作系统) 准备一台linux环境,内存4G或以上,硬盘40G或以上,我们这里使用的是Centos6.9 64位的操作系统(注意:一定要使用64位的操作系统) ...

2019-11-01 17:18:05 3281

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除