hdfs
QAQ_0v0
这个作者很懒,什么都没留下…
展开
-
sqoop数据迁移
sqoop数据迁移概述sqoop1与sqoop2架构对比工作机制Sqoop的数据导入列举出所有的数据库导入数据库表数据到HDFS导入到HDFS指定目录导入到hdfs指定目录并指定字段之间的分隔符导入关系表到hive并自动创建hive表导入表数据子集sql语句查找导入hdfs增量导入第一种增量导入使用上面的选项来实现第二种增量导入通过--where条件来实现Sqoop的数据导出hdfs导出到mysql概述sqoop是apache旗下一款“Hadoop和关系数据库服务器之间传送数据”的工具。导入数据:My原创 2020-10-07 22:17:56 · 197 阅读 · 0 评论 -
Flume基本案例
Flume案例采集目录到HDFS需求分析flume配置文件开发启动flume上传文件到指定目录采集文件到HDFS需求分析定义flume的配置文件启动flume开发shell脚本定时追加文件内容采集目录到HDFS需求分析采集需求:某服务器的某特定目录下,会不断产生新的文件,每当有新文件出现,就需要把文件采集到HDFS中去根据需求,首先定义以下3大要素数据源组件,即source ——监控文件目录 : spooldirspooldir特性:1、监视一个目录,只要目录中出现新文件,就会采集文件中原创 2020-10-06 19:50:51 · 120 阅读 · 0 评论 -
日志采集框架Flume
日志采集框架FlumeFlume介绍概述运行机制Flume采集系统结构图Flume介绍概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,又可以将采集到的数据(下沉sink)输出到HDFS、hbase、hive、kafka等众多外部存储系统中一般的采集需求,通过对flume的简单配置即可实现Flume针对特殊场景也具备良好的自定义扩展能力,因此,flume可以适用于大部分的日常数据采集原创 2020-10-06 19:16:19 · 375 阅读 · 0 评论 -
Hive基本概念
Hive基本概念简介什么是 HiveHive的特点Hive架构基本组成Hive使用方式第一种交互方式:Hive交互shell第二种交互方式:Hive JDBC服务第三种交互方式:Hive命令Hive基本操作创建数据库修改数据库查看数据库信息删除数据库创建数据库表简介什么是 HiveHive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。其本质是将SQL转换为MapReduce的任务进行运算,底层由HDFS来提供数据的存储,说白了hive可以理解原创 2020-09-26 23:05:31 · 114 阅读 · 0 评论 -
数据仓库
数据仓库基本概念主要特征面向主题集成性非易失性(不可更新性)时变性数据仓库与数据库区别数据仓库分层架构数据仓库元数据管理基本概念数据仓库的目的是构建面向分析的集成化数据环境,为企业提供决策支持(Decision Support)。它出于分析性报告和决策支持目的而创建。数据仓库本身并不“生产”任何数据,同时自身也不需要“消费”任何的数据,数据来源于外部,并且开放给外部应用。主要特征数据仓库是面向主题的(Subject-Oriented )、集成的(Integrated)、非易失的(Non-Volat原创 2020-09-24 21:33:06 · 320 阅读 · 0 评论 -
Yarn资源调度
Yarn资源调度简介主要组件介绍与作用主要组件主要组件的作用yarn当中的调度器yarn当中的调度器介绍第一种调度器:FIFO Scheduler (队列调度器)第二种调度器:capacity scheduler(容量调度器,apache版本默认使用的调度器)第三种调度器:Fair Scheduler(公平调度器,CDH版本的hadoop默认使用的调度器)关于yarn常用参数设置简介yarn是hadoop集群当中的资源管理系统模块,管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存)以原创 2020-09-23 22:19:00 · 218 阅读 · 0 评论 -
mapreduce合并小文件
mapreduce合并小文件分析实现自定义InputFromat自定义RecordReader定义mapreduce处理流程分析小文件的优化无非以下几种方式:在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS在业务处理之前,在HDFS上使用mapreduce程序对小文件进行合并在mapreduce处理时,可采用combineInputFormat提高效率实现本节实现的是上述第二种方式程序的核心机制:自定义一个InputFormat改写RecordReader,实现一次读取原创 2020-09-22 21:35:06 · 536 阅读 · 0 评论 -
分布式计算框架MapReduce
分布式计算框架MapReduceMapReduce入门MapReduce思想Hadoop MapReduce设计构思MapReduce框架结构MapReduce编程规范MapReduce增强MapReduce的分区与reduceTask的数量MapReduce排序以及序列化3、 MapReduce当中的计数器MapReduce的combinerMapReduce入门MapReduce思想MapReduce思想在生活中处处可见。或多或少都曾接触过这种思想。MapReduce的思想核心是“分而治之”,适用原创 2020-09-16 19:48:47 · 235 阅读 · 0 评论 -
HDFS的API操作
这里写目录标题使用文件系统方式访问数据获取FileSystem的几种方式递归遍历文件系统当中的所有文件下载文件到本地hdfs上创建文件夹hdfs文件上传HDFS的小文件合并使用文件系统方式访问数据在 java 中操作 HDFS,主要涉及以下 Class:Configuration:该类的对象封转了客户端或者服务器的配置; FileSystem:该类的对象是一个文件系统对象,可以用该对象的一些方法来对文件进行操作,通过 FileSystem 的静态方法 get 获得该对象。FileSystem f原创 2020-09-15 21:58:28 · 273 阅读 · 0 评论 -
分布式文件系统HDFS
分布式文件系统HDFSHDFS分布式文件系统设计目标HDFS的架构图之基础架构hdfs的架构之文件的文件副本机制以及block块存储抽象成数据块的好处块缓存HDFS的元数据信息FSimage以及edits和secondaryNN的FSImage与edits详解FSimage文件当中的文件信息查看edits当中的文件信息查看secondarynameNode如何辅助管理FSImage与Edits文件HDFS的文件写入过程HDFS的文件读取过程HDFS分布式文件系统设计目标硬件错误 由于集群很多时候由数原创 2020-09-14 21:17:12 · 167 阅读 · 0 评论 -
HDFS的命令行使用
HDFS的命令行使用hdfs的特性:HDFS的命令行使用基本命令高级命令文件数量的限额清除文件数量限制空间大小的限额清除空间大小的限额hadoop的基准测试测试写入速度测试读取速度清除测试数据hdfs的特性:master/slave架构 :主从架构namenode:主节点,主要用于存储元数据,处理用户的请求datanode:从节点,主要用于存储数据,说白了就是出磁盘的分块存储:把一个大的文件,化成一个个的小的block块,在hadoop2当中一个block块默认是128M的大小100台机器,每原创 2020-09-13 20:14:03 · 146 阅读 · 0 评论