Hadoop
文章平均质量分 85
OnTheRoad_Kang
比你优秀的还比你努力你有什么资格不去努力
展开
-
Sqoop介绍、安装部署及MySql与HDFS数据之间的导入导出
本博客的学习目标:了解Sqoop是什么,能做什么以及架构能够进行Sqoop环境部署 MySql<=>HDFS数据的导入导出准备工作:Hadoop伪分布式集群环境:https://blog.csdn.net/qq_32297447/article/details/79734894CentOS7下安装配置Mysql:https://blog.csdn.net/qq_3229744...原创 2018-04-10 10:01:47 · 10215 阅读 · 2 评论 -
Hadoop分布式集群搭建以及案例运行-fs操作
Hadoop分布式集群搭建案例步骤(也可以叫分布式文件系统)一:创建分布式集群环境二:设置静态ip以及主机名与映射关系三:创建用户、配置SSH无密登录四:子机dn操作五:配置主机jdk、hadoop的环境以及hadoop文件六:打包、远程传输至子机七:启动hadoop集群以及运行案例基于hadoop的整体分布式模块交互 1)分布式系统的定义 把数据放到一个服务器集群上面,分为:主控服务器(Mas...原创 2018-02-06 10:18:43 · 11960 阅读 · 0 评论 -
Hadoop搭建、环境配置
前期准备:1.安装虚拟机2.安装CentOS 7(注意这里选择最小安装,稍后还要克隆)备注:http://blog.csdn.net/qq_32297447/article/details/79267327这个博客上面有博主做的一个Hadoop分布式框架的搭建部署以及案例运行过程:一:CentOS 7网络配置,克隆子机二:远程传输三:创建Hadoop用户四:配置SSH无密码登录五:安装JDK六:安...原创 2018-01-30 13:07:01 · 10895 阅读 · 0 评论 -
什么是分布式系统!以及分布式系统架构的优缺点!
现在的架构很多,各种各样的,如高并发架构、异地多活架构、容器化架构、微服务架构、高可用架构、弹性化架构等,还有和这些架构相关的管理型的技术方法,如 DevOps、应用监控、自动化运维、SOA 服务治理、去 IOE 等等,还有很多。那什么是分布式系统?分布式系统是支持分布式处理的软件系统,是由通信网络互联的多处理机体系结构上执行任务的系统。包括分布式操作系统、分布式程序设计语言及其编译系统、分布式文...原创 2018-01-17 09:26:00 · 72521 阅读 · 1 评论 -
Spark学习了解CORE、RDD等,以及基于Hadoop2.7.5的伪分布式集群搭建Spark2.3的环境部署
环境准备 :JDK1.8Hadoop2.7.5(Hadoop伪分布式搭建博客)1、Spark概述Apache Spark 是专为大规模数据处理而设计的快递通用的计算引擎Spark是UC Berkeley AMP lab所开源的类似Hadoop MR 的通用并行框架,Spark拥有Hadoop MR所具有的特点,但不同于MR的是Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spa...原创 2018-05-20 21:43:06 · 10123 阅读 · 0 评论 -
Flume数据采集概述、结构、环境搭建
官网:http://flume.apache.org/前言:Hadoop整体开发业务流程1、概述:Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力(其设计的原理也是基于将数据流(如日志数据)从各种网站服务器上汇集起...原创 2018-05-08 12:28:11 · 16357 阅读 · 0 评论 -
与 Hadoop 对比,如何看待 Spark 技术?
Hadoop首先看一下Hadoop解决了什么问题,Hadoop就是解决了大数据(大到一台计算机无法进行存储,一台计算机无法在要求的时间内进行处理)的可靠存储和处理。 HDFS,在由普通PC组成的集群上提供高可靠的文件存储,通过将块保存多个副本的办法解决服务器或硬盘坏掉的问题。 MapReduce通过简单的Mapper和Reducer的抽象提供一个编程模型,可以在一个由几十台上百台的PC组成的不可靠...原创 2018-05-22 09:46:19 · 9622 阅读 · 0 评论 -
Kafka(ZK)安装部署
小结: 本篇博客,介绍三种安装Kafka的方式,分别为:单节点单Broker部署、单节点多Broker部署、集群部署(多节点多Broker)。实际生产环境中使用的是第三种方式,以集群的方式来部署Kafka。 Kafka强依赖ZK,如果想要使用Kafka,就必须安装ZK,Kafka中的消费偏置信息、kafka集群、topic信息会被存储在ZK中一、Kafka 单节点部署Kafk...原创 2018-06-24 16:22:31 · 13795 阅读 · 1 评论 -
Kafka API
小结:创建两个或多个数据文本文件,利用多线程同时发送及接受ProducerMap<String,Object> config = new HashMap<String, Object>(); config.put("bootstrap.servers","Kafka集群所在IP:9092"); config.put("key.seriali...原创 2018-06-24 16:37:59 · 9431 阅读 · 0 评论 -
Hadoop生态系统
Hadoop作为一个生态系统,每个系统只解决某一个特定的问题域(甚至可能很窄)。本文重点讨论分布式计算领域的几个开源系统可以解决的问题域。(1)MapReduce:古老的分布式计算框架,它的特点是扩展性、容错性好,易于编程,适合 离线数据处理,不擅长流式处理、内存计算、交互式计算等领域。MapReduce网址是: http://hadoop.apache.org/(2)Hive:披着SQL...原创 2018-09-24 17:25:57 · 9626 阅读 · 0 评论 -
Hadoop高可用、Yarn的资源分配
hadoop概述:Hadoop实现了一个分布式文件系统(HadoopDistributed File System),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(high throughput)来访问应用程序的数据,适合那些有着超大数据集(large data set)的应用程序。HDFS放宽了(relax)POSIX的要求,可以...原创 2018-11-24 22:00:38 · 10170 阅读 · 0 评论 -
hive处理小文件(进行map、reduce、压缩、归档优化解决)
背景Hive query将运算好的数据写回hdfs(比如insert into语句),有时候会产生大量的小文件,如果不采用CombineHiveInputFormat就对这些小文件进行操作的话会产生大量的map task,耗费大量集群资源,而且小文件过多会对namenode造成很大压力。所以Hive在正常job执行完之后,会起一个conditional task,来判断是否需要合并小文件,如果...原创 2018-12-05 16:28:18 · 11906 阅读 · 0 评论 -
Hadoop资源调度框架YARN
本文概述:1、YARN概述2、YARN架构3、YARN执行流程4、YARN容错5、YARN环境搭建准备工作: 之前博主有发过Hadoop集群环境的搭建以及分布式环境的搭建,可以参考任意博客 http://blog.csdn.net/qq_32297447/article/details/79204625 http://blog.csdn.net/qq_32297447/artic...原创 2018-02-11 17:20:10 · 9806 阅读 · 0 评论 -
分布式列式数据库HBase
本文概述:1、HBase概述2、HBase特点3、HBase和RDBMS以及HDFS的对比区别4、HBase核心术语5、HBase物理模型6、HBase架构7、HBase容错 8、HBase环境搭建 HBase官网:http://hbase.apache.org/(Apache HBase是一个开源,分布式,版本化的非关系型数据库)HBase概述1)构建在HDFS之上的,分布式、面向列的开源数据库...原创 2018-02-14 15:48:39 · 12061 阅读 · 0 评论 -
分布式协调服务ZooKeeper
本文概述:1、什么是ZooKeeper?2、ZooKeeper概述3、Hadoop生态系统中那些框架使用到了ZooKeeper4、ZooKeeper的架构5、ZooKeeper核心组件6、ZooKeeper的数据结构7、Watch触发器8、哪些框架使用到了ZooKeeper 9、ZooKeeper应用举例 10、节点属性11、Znode的两种类型12、ZooKeeper应用场景13、ZooKeep...原创 2018-02-19 10:06:53 · 10088 阅读 · 0 评论 -
Hive下 HQL使用(库、表、区)
准备:Mysql&Hive:Mysql&Hive:基于Hive的伪分布式Hadoop集群环境的配置的博客hive使用(HQL)不用进入hive的客户端,可以使用如下命令来查看$ hive -e 'show databases'数据库操作创建数据库:create database db;如果数据库不存在就创建:create database if not exists db;在指定的...原创 2018-04-08 10:25:47 · 10320 阅读 · 0 评论 -
Hadoop2.7.5伪分布式源码编译以及使用
环境准备 :JDK1.8Hadoop2.7.5(Hadoop集群是伪分布式)maven 3.5.2protocolBuffer 2.5.0snappy1.1.1注意:如果你的Hadoop编译成功的话,可以支持zlib、snappy、lz4、bzip2、openssl5种本地压缩1、编译步骤:下载源代码安装依赖软件或库编译打包2、安装软件安装JDK1.7+并配置环境变量,前面博客中有,自行查看安装各...原创 2018-04-06 10:22:02 · 10243 阅读 · 0 评论 -
伪分布式集群环境搭建、jdk、hadoop、zk、hbase、hive、mysql
准备工作一台机子(静态ip、映射)hadoop用户下准备:jdk1.8:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmlhadoop3.0http://hadoop.apache.org/releases.htmlzookeeper3.4.1http://archive.cloud...原创 2018-03-28 22:04:45 · 11688 阅读 · 0 评论 -
基于HBase和ZK 高可用集群环境 Shell脚本启动、关闭、重启、查看进程
这是前面博主的总结:基于Hbase&&ZK的Hadoop HA高可用环境搭建将下面四个脚本分别存放在一个单独文件中,并存放在同一目录下,使用如下命令管理 hadoop ha 高可用集群的启动、关闭、重启、查看进程sh hadoop-ha-cluster.sh start # 启动集群sh hadoop-ha-cluster.sh stop # 关闭集群...原创 2018-03-19 09:51:25 · 10398 阅读 · 0 评论 -
Hbase HA 高可用环境搭建
这是前面博主的总结:基于ZK的Hadoop HA 高可用的环境搭建步骤像中间一些无密登录,用户权限等可参考此博客后面会写一个shell脚本去启动、关闭、重启、查看集群的博客一、安装前准备集群主机规划IP编号安装软件主机名进程192.168.18.27node1jdk/hadoop/hbase主Master27NameNode、DFSZKFailoverController、ResourceMana...原创 2018-03-18 20:46:14 · 11278 阅读 · 1 评论 -
Hadoop HA高可用的环境搭建(ZK)
一、Hadoop HA 高可用集群整体架构 在 Hadoop 1.0 时代,Hadoop 中的HDFS 集群中面临一个问题,即NameNode 单点问题,如果在集群运行过程中,NameNode出现故障宕机后,那么整个集群将会面临瘫痪。 Hadoop 2.0 以后,NameNode 的单点问题得到了解决,共有两台NameNode并形成互备,一台处于活动状态,一台处于备用状态,...原创 2018-03-18 17:20:46 · 11173 阅读 · 1 评论 -
Hadoop集群安全模式的问题
hadoop为了防止数据丢失,启动了“安全模式”的设置,每次启动hadoop后一段时间内集群处于安全模式,该模式下集群会检查各节点文件块的记录,如果数据块中满足replication设置值的数据块的数量在总数据块数量中所占比例没有超过一定值(称为安全模式阀值,默认为0.999f),那么集群将持续处于安全模式,在该模式下,文件系统中的内容不允许修改也不允许删除,直到安全模式结束。安全模式主要是为了系...原创 2018-03-09 09:23:54 · 13253 阅读 · 0 评论 -
大数据大纲&大数据生态圈所涉及的技术
今天博主是做一个大概的概述,缺少的章节会在后面慢慢补充,感兴趣的同学可以在下面评论留言。数据可视化展示中心:KIbana官网:点击打开链接用户指南:点击打开链接Grafana官网:点击打开链接Grafana帮助文档:点击打开链接大数据特征:1)大量化(Volume):存储量大,增量大 TB->PB2)多样化(Variety):来源多:搜索引擎,社交网络,通话记录,传感器格式多:(非)结...原创 2018-03-09 09:36:20 · 21547 阅读 · 4 评论 -
Hive概述纲要、环境配置以及HQL使用
hive概述Hive产生背景Hive是什么为什么要使用Hivehive的数据结构hive的基本操作hive的数据类型hive 元数据Hive的体系架构 Hive部署架构Hive与RDBMS的关系、区别Hive的优缺点Hive适用场景hive存储文件格式和压缩Hive环境搭建hive概述hive是大数据仓库软件,它提供了sql的方式简化大数据mapreduce的数据读取写入统计。并提供了多种使用途径...原创 2018-03-05 08:59:34 · 10695 阅读 · 0 评论 -
分布式文件系统HDFS
本文概述:1、大数据特征2、大数据带来的革命性变革3、Google大数据4、分布式文件系统5、HDFS优缺点6、HDFS分布式文件的设计思想7、组成结构8、HDFS架构9、HDFS读写数据流程10、HDFS快照11、HDFS日志收集实战案例 12、HDFS Java Idea操作 大数据特征:1)大量化(Volume):存储量大,增量大2)快速化(Velocity):告诉数据I/O3)多样化(Va...原创 2018-02-28 20:01:39 · 10160 阅读 · 0 评论 -
分布式计算框架MapReduce
本文概述:1、什么是MapReduce?2、MapReduce特点3、MapReduce不适合的场景4、MapReduce架构5、MapReduce容错6、MapReduce编程模型7、Hadoop如何实现MapReduce?8、hadoop集群xml配置9、Java API 编程,使用MapReduce开发WordCount什么是MapReduce?MapReduce是一种编程模型,其理论来自G...原创 2018-02-28 19:45:49 · 10587 阅读 · 0 评论 -
Hive常用性能调优&&常见问题参考&&MR作业调优
设置队列Hive中所有MapReduce作业都提交到队列queue1中,对本次启动的会话有效,下次启动需要重新配置hive --hiveconf mapreduce.job.queuename=queue1设置执行引擎set hive.execution.engine=mr;set hive.execution.engine=spark;控制Hive中map的数量hive.mer...原创 2018-12-29 09:59:43 · 10545 阅读 · 0 评论