大数据
路上^_^
这是动图,自己脑补
展开
-
Hive-内部表005
文章目录元数据存放位置创建数据库指定位置修改数据库数据库详细信息表语法说明内部表外部表分区表分桶表表结构修改数据加载基本查询语法分组多表链接排序内置函数自定义函数元数据存放位置表的存放位置在 hive-site.xml 中指定指定的就是 hive 中元数据的存放位置<name>hive.metastore.warehouse.dir</name><value>/ser/hive/warehouse</value>创建数据库# 上一篇 003 写原创 2021-09-12 13:51:11 · 147 阅读 · 0 评论 -
Hive-交互方式004
文章目录交互方式bin/hive操作表和映射bin/hive -e "create table database if not exists mytest"交互方式bin/hiveshell 交互操作# 查看数据库show databases;# 创建数据库create database if not exists myhive;# 使用数据库use myhive;# 创建表create table t_test(id int,name string);# show tables原创 2021-09-08 23:19:12 · 103 阅读 · 0 评论 -
Hive-003安装配置
文章目录Hive的安装安装 MySQL配置 Hivehive-env.shhive-site.xml将 MySQL 驱动包放置在 hive/lib目录下配置hive环境变量Hive的安装1. 安装 Hive2. 安装 MySql 1. 启动 MySql 服务 2. 通过 MySql 自带的脚本设置3. 进入MySql Client,授权安装 MySQL# 解压hive 3.1.1tar -zxvf xxx# 在线安装 mysqlyum install mysql mysql-se原创 2021-09-08 22:41:08 · 107 阅读 · 0 评论 -
Hive-002
文章目录概述Hive本质结构化例如映射的表元数据查询数据概述上一篇讲了一些概念性的东西.本章也会是概念性的东西.HiveHive是 Hadoop数据仓库的工具. 可以将结构化的数据,映射为一张数据表.并提供 SQL查询功能本质是将 SQL 转为 MapReduce 任务的工具.是一个 MR Client结构化Hive可以将结构化的数据映射为一张和数据库表.并提供SQL 操作 MR例如// access.txt1.jack,12:302.tom,13:201.jack,15:原创 2021-09-08 21:47:53 · 94 阅读 · 0 评论 -
Hive-001
文章目录概述特征概述… …诸君自己百度特征主要面向 主题,集成,非易失,和时变的数据集合主题 代表着各行各业中,代表着不同部分的数据. 比如: 零售商,可以有产品,有库存,有客户的主题和以前在MySQL中的数据表是一个概念集成性 对于集成性来说,这个数据经过清晰,归纳之后,某一主题的数据以及衍生的主题数据,归纳到了一起 比如: 保险,下面还有医疗保险,车保险...原创 2021-09-08 20:51:35 · 110 阅读 · 0 评论 -
MR高级-规约002
文章目录概述思路代码概述Combiner 是在map端,对map端的输出做一次合并.减少map和reduce 节点之间的数据传输量.是 Reduce 的子组件是在每个 MapTask之后,将map 方法要输出的数据进行合并.将相同 key 的数据合并思路写两个 reduce. 都继承 reduce只不过在 job中将其中一个 reduce 设置为 Combiner代码public class MyCombiner extends Reducer<Text, LongWritab原创 2021-09-04 22:05:48 · 130 阅读 · 0 评论 -
MR高级-计数器001
文章目录分类内置自定义计数器方式一方式二分类分为 内置计数器 和 自定义计数器两种内置任务计数器文件系统计数器FileInputFormat计数器FileOutputFormat计数器作业计数器自定义计数器方式一通过 context 上下文对象,在 map 端使用计数器.// 两个参数 第一个参数是计数器的分类,分类名// 第二个参数 是统计数的名字.要统计字段的名字Counter count = context.getCounter("MR_COUNT","MapRed原创 2021-09-04 19:46:32 · 226 阅读 · 0 评论 -
MapReduce-SortShuffle004
文章目录概述序列化排序WritableComparable思路源文件mapShuffle-SortReduce阶段代码部分JobMianMapperReduceShuffleSortShuffle概述主要是 Shuffle 阶段的排序功能序列化Hadoop 自定义序列化格式Writable排序排序是 Shuffle 阶段的功能之一.Hadoop 将序列化和排序结合在一起.WritableComparable有其他子接口,来实现其他的功能例如 WritableComparable 可以实原创 2021-09-04 17:52:04 · 158 阅读 · 0 评论 -
MapReduce-ParatitionerOwnerShuffle003
文章目录分区MapTaskPartitioner 分区类重写 getPartitioner 方法分区通过分区,将不同的数据交给不同的 Reduce,产生不同的结果.MapTask我们把写好的代码打包成Jar运行在集群上.那么,其中的map方法在每个节点都有一个.这个方法这时可以看做是MapTaskPartitioner 分区类而 getPartition 方法 返回的是 Reduce 的编号第几个 Reduce重写 getPartitioner 方法整个步骤和上篇没有分区的文章差不多原创 2021-09-04 13:00:13 · 117 阅读 · 0 评论 -
MapReduce002
文章目录案例Map阶段代码ShuffleReduce案例Map阶段MapReduce 会自动获得每一行单词的索引.我们需要的是在 Map 中对每行单词进行单词出现次数的统计.暂时不需要对相同的KEY进行合并. 除非是一个单词在同一行出现了多次代码/** * WordCountMapper * * @author xxx * @date 2021/9/3 */public class WordCountMapper extends Mapper<LongWritable,T原创 2021-09-04 00:34:35 · 81 阅读 · 0 评论 -
MapReduce001
文章目录概述概述Hadoop 计算的部分框架.步骤由Map,Shuffle,Reduce 三部分组成原创 2021-09-02 23:26:04 · 88 阅读 · 0 评论 -
Hdfs-高可用高扩展Hdfs007
文章目录概述高可用Federation机制高扩展概述NameNode 也提供多个,DataNode也提供多个即可如图,大概就是下面的样子高可用Federation机制联邦机制用于解决单节点NameNode内存不够的情况途中的两个 NameNode 向JN 集群注册.激活的 Active 的NameNode 的任何操作都发送到 JN中.另一个备用的将NameNode 将JN中读取 激活的NameNode发送的数据如果 Active 坏了,则 Standby 激活顶上高扩展通过原创 2021-09-01 23:06:38 · 177 阅读 · 0 评论 -
Hdfs-安全模式005
文章目录概述查看安全模式离开安全模式概述在刚启动集群时, HDFS 进去安全模式.无法上传,删除查看安全模式hdfs dfsadmin -safemode get离开安全模式hdfs dfsadmin -safemode leave原创 2021-09-01 22:40:23 · 97 阅读 · 0 评论 -
Hdfs-回收站004
文章目录概述开启回收站总结概述删除文件之后,文件会在一个地方存储一段时间.在这段时间是可以回收掉的.开启回收站// core-site.xml 中设置<property> <name>fs.trash.interval</name> <value>1440</value></property>删除文件就是将文件移动到 trash目录中.就是删除文件总结HDFS为每个用户创建一个回收站目录.在 /user/用户原创 2021-09-01 22:35:51 · 93 阅读 · 0 评论 -
Hdfs-总结004
文章目录SecondaryNameNode概述DataNode 概述总结SecondaryNameNode概述主要负责 将 edits 中文件内容合并到 fsimage 中合并过程称为 checkpointDataNode 概述主要关注 Block存储 以及 Replication机制总结NameNode维护了两份关系...原创 2021-09-01 21:55:12 · 79 阅读 · 0 评论 -
Hdfs-namenode003
文章目录概述NameNode组成fsimage文件fsimage_XMLedits文件SEED_TXIDVERSION概述HDFS主节点为 NameNode SecondaryNameNode从节点为 DataNodeNameNode存储文件的目录,文件的信息;文件Block列表信息.接收用户操作请求组成fsimage 文件目录等信息的镜像edits 最近文件目录操作的记录.持久化的一种方式.是一个文件seed_txidVERSIONfsimage文件// 生成一个叫做原创 2021-09-01 21:42:13 · 81 阅读 · 0 评论 -
Hdfs-Java002
文章目录配置HadoopmavenJava接口ConfigurationFileSystemHDFS操作遍历所有HDFS文件API遍历HDFS创建文件夹文件下载文件上传小文件合并上传配置Hadoop1. 在 Windows 安装Hadoop.2. 设置 ``HADOOP_HOME``3. 将hadoop的bin目录下的hadoop.dll 放置到 C:/Windows/System32 目录下maven<dependency> <groupId>org.apache.原创 2021-09-01 20:24:25 · 88 阅读 · 0 评论 -
Hdfs001
文章目录Hadoop架构HDFSHdfsShell格式常见操作作业Hadoop架构HDFSMapReduce Map ReduceYarnOthersHDFS可以通过 Shell 上传,下载文件创建删除目录删除文件HdfsShell格式bin/hdfs dfs -XXX(这个是命令) scheme://authority / path// 查看根目录的信息:列出文件和文件夹hdfs dfs -ls hdfs://node01:9000/常见操作// 上传一个文件到原创 2021-09-01 20:02:23 · 92 阅读 · 0 评论 -
Hadoop-002
文章目录搭建Hadoop虚拟机网络配置桥接NAT模式仅主机HDFSLinux 用户权限Linux Shell 脚本执行搭建Hadoop需要 JDK 以及 ZK 基础支持软件的安装虚拟机网络配置桥接NAT模式仅主机不能连接外网.HDFS需要安装 MapRecude NameNodeResourceManager完整的软件如下Linux 用户权限Linux Shell 脚本#! /bin/bashecho "Hello World!"执行sh hello.shch原创 2021-08-17 18:41:12 · 96 阅读 · 0 评论 -
Hadoop-001
文章目录简介集群搭建Linux 命令 和 Shell 脚本增强简介集群搭建Linux 命令 和 Shell 脚本增强原创 2021-08-17 18:07:43 · 101 阅读 · 0 评论