![](https://img-blog.csdnimg.cn/20201014180756922.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
hadoop
白修修
这个作者很懒,什么都没留下…
展开
-
和初学者一起了解——hive:动态分区与静态分区
hive在建表的时候可以建分区表分区主要用于提高性能分区列的值将表划分为一个个的文件夹查询时语法使用"分区"列和常规列类似查询时Hive会只从指定分区查询数据,提高查询效率分区又分为动态分区和静态分区首先,我们建一个普通的外部表,导入一个拥有4列字段的文件数据,我们拿这一个表来演示动态分区和静态分区create external table obs_users(userid string,username string,birthday string,sex string)row原创 2020-07-08 19:38:43 · 284 阅读 · 0 评论 -
hive创建外部表
#hive中的表分为内部表和外部表内部表(管理表)HDFS中为所属数据库目录下的子文件夹数据完全由Hive管理,删除表(元数据)会删除数据外部表(External Tables)数据保存在指定位置的HDFS路径中Hive不完全管理数据,删除表(元数据)不会删除数据创建外部表内部表基本上与mysql中的操作相同,只要你会sql语句,hive的内部表就没有什么问题。主要是外部表:外部表可以帮助我们把一些txt或者日志文件进行数据化处理。1、使用hive之前首先要把hadoop,mysql和原创 2020-07-07 19:24:40 · 12021 阅读 · 1 评论 -
ZooKeeper简介:分布式应用协调服务
了解ZooKeeper架构及角色Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目 Zookeeper=文件系统+通知机制Zookeeper从设计模式上来看是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册。一旦数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应,从而实现集群中类似Master/Slave管理模式。理解ZooKeeper数据结构ZooKeep原创 2020-07-06 13:10:58 · 229 阅读 · 0 评论 -
尽我所能地详细分析:MapReduce执行流程
作为一个hadoop的初学者,我将在本文中尽量分析MapReduce执行流程,如果有什么不对的地方,还请各位大神不吝赐教。1、InputFormatClient端提交任务的数据和配置到服务器层,在进入MapReduce执行之前,因为文件数据已经被HDFS切成了固定大小的128M的文件块,所以很可能出现断句不准确的情况。所以,要先经过InputFormat,默认为TextInputFormat类,TextInputFormat继承了FileInputFormat类,FileInputFormat实现了I原创 2020-07-05 19:03:12 · 181 阅读 · 0 评论 -
使用MapReduce完成员工信息和部门信息的关联查询
需求说明有以下两个分别存储员工信息和部门信息的txt文件:现在要根据员工表中的部门id,显示员工的部门名称。代码实现这里使用MapReduce完成要编写4个类:Mapper,Reducer,Driver,员工表的实体类EMP(实现Writable接口)EMP类import org.apache.hadoop.io.Writable;import java.io.DataInput;import java.io.DataOutput;import java.io.IOExceptio原创 2020-07-02 18:27:19 · 926 阅读 · 0 评论 -
从WordCount词频统计简单来看:MapReduce的执行流程
使用MapReduce来实现WordCount词频统计的代码1、需要的maven依赖包<dependency> <groupId>org.apache.hadoop</groupId> <artifactId>hadoop-common</artifactId> <version>2.6.0</version> </dependency> <!-- h原创 2020-07-02 00:22:29 · 2348 阅读 · 0 评论