2019年11月_小Huya

原创 Hive的基本操作

创建数据库与创建数据库表创建数据库操作创建数据库 create database if not exists myhive; 切换数据库 use myhive; 说明：hive的表存放位置模式是由hive-site.xml当中的一个属性指定的 <name>hive.metastore.warehouse.dir</name> <value>/u...

2019-11-23 14:49:44 3201 1

原创 HIVE的安装部署

我们在此处选择第三台机器作为我们hive的安装机器 derby版hive直接使用：解压hive cd /export/softwares tar -zxvf hive-1.1.0-cdh5.14.0.tar.gz -C …/servers/ 直接启动 bin/hive cd …/servers/ cd hive-1.1.0-cdh5.14.0/ bin/hive hive> cre...

2019-11-19 21:34:41 3188 1

原创 Hive介绍

Hive基本概念 Hive简介什么是Hive Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能（HQL）。其本质是将SQL转换为MapReduce的任务进行运算，底层由HDFS来提供数据的存储，hive可以理解为一个将SQL转换为MapReduce的任务的工具。为什么使用Hive  直接使用hadoop所面临的问题人员学习成本...

2019-11-19 16:53:33 3779 1

原创 MR从读取数据开始到将最终结果写入HDFS经过哪些步骤（数据层面和内存层面）

2019-11-16 10:59:47 3892

原创相同手机号的数据存入到按当前按手机号进行命名的文件当中（多文件输入输出）

import org.apache.hadoop.io.LongWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Mapper; import java.io.IOException; /** * @author huangdonghu * @version 1.0 * @dat...

2019-11-15 08:32:29 3231 1

原创让我们一起来认识和学习一下MapReduce吧

理解MapReduce思想 MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”，适用于大量复杂的任务处理场景（大规模数据处理场景）。即使是发布过论文实现分布式计算的谷歌也只是实现了这种思想，而不是自己原创。 Map负责“分”，即把复杂的任务分解为若干个“简单的任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算，彼此间几乎没有依赖...

2019-11-13 08:17:11 3262 2

原创 HDFS的javaAPI操作

创建maven工程并导入jar包由于cdh版本的所有的软件涉及版权的问题，所以并没有将所有的jar包托管到maven仓库当中去，而是托管在了CDH自己的服务器上面，所以我们默认去maven的仓库下载不到，需要自己手动的添加repository去CDH仓库进行下载，以下两个地址是官方文档说明，请仔细查阅 https://www.cloudera.com/documentation/enterpri...

2019-11-07 20:12:14 3259 2

原创 HDFS新增节点与删除节点

这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Ma...

2019-11-06 21:23:59 3327

原创 HDFS的shell命令操作

通过如下的命令可以获取所有的参数 [root@node01 Hadoop-2.6.0-cdh5.14.0]# bin/hdfs dfs Usage: hadoop fs [generic options] [-appendToFile <localsrc> ... <dst>] [-cat [-ignoreCrc] <src>...

2019-11-05 16:13:51 3221

原创分布式CAP 定理

历史这个定理起源于柏克莱加州大学University of California, Berkeley的计算机科学家埃里克·布鲁尔在2000年的分布式计算原则研讨会（Symposium on Principles of Distributed Computing（PODC））上提出的一个猜想。在2002年，麻省理工学院（MIT）的赛斯·吉尔伯特和南希·林奇发表了布鲁尔猜想的证明，使之成为一个定理...

2019-11-05 15:16:17 3303

原创大数据为什么这么快？

首先我们先了解一下高铁为什么比老式火车快？在这里我们拿传统数据和大数据处理服务器系统安装来进行一个对比传统数据下服务器系统安装大数据下服务器系统安装传统数据与大数据处理方式对比 ...

2019-11-04 09:37:08 3289 2

原创大数据hadoop集群安装部署

目录准备工作准备工作准备一台linux环境，内存4G或以上，硬盘40G或以上，我们这里使用的是Centos6.9 64位的操作系统（注意：一定要使用64位的操作系统）准备一台linux环境，内存4G或以上，硬盘40G或以上，我们这里使用的是Centos6.9 64位的操作系统（注意：一定要使用64位的操作系统） ...

2019-11-01 17:18:05 3281

抓住人生的每一分每一秒，胜过虚度中的每一年每一月！！！