hadoop
大数据开发
JustSleep
这个作者很懒,什么都没留下…
展开
-
Hbase简介
1、HBase是一个高可靠性、高性能、面向列(列族存储)、可伸缩的分布式存储系统。HBase利用Hadoop HDFS作为其文件存储系统,HBase同样利用Hadoop MapReduce来处理HBase中的海量数据,HBase利用Zookeeper作为作为协同服务。2、主要特点列式存储这里的列式存储其实说的是列族(ColumnFamily)存储,Hbase是根据列族来存储数据的。...原创 2020-03-13 16:12:30 · 553 阅读 · 0 评论 -
Kafka总结
Kafka是一个分布式的基于发布/订阅模式的消息队列,主要应用于大数据实时处理领域。1、消息队列1)点对点模式(一对一)消费者主动拉取数据,消息收到后消息清除2)发布/订阅模式(一对多)消费者消费数据之后不会清除消息,生产者产生的消息会被所有订阅者消费2、基础架构为方便扩展,并提高吞吐量,一个topic分为多个partition(Topic :可以理解为一个队列,生产者...原创 2020-03-12 17:00:07 · 125 阅读 · 0 评论 -
Hive的基本使用2
查询[WITH CommonTableExpression (, CommonTableExpression)*] (Note: Only available starting with Hive0.13.0)SELECT [ALL | DISTINCT] select_expr, select_expr, ...FROM table_reference[WHERE ...原创 2020-03-12 11:54:54 · 540 阅读 · 0 评论 -
hive的基本使用1
DDL数据定义1、创建数据库CREATE DATABASE [IF NOT EXISTS] database_name[COMMENT database_comment][LOCATION hdfs_path][WITH DBPROPERTIES (property_name=property_value, ...)];解释说明:创建一个数据库,数据库在HDFS上的默...原创 2020-03-11 22:30:22 · 273 阅读 · 0 评论 -
Hive简介
1、Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目提供的服务包括:统一命名服务、统一配置管理、统一集群管理、服务器节点动态上下线、软负载均衡等。...原创 2020-03-11 20:30:52 · 265 阅读 · 0 评论 -
Yarn简介
1、Yarn是一个资源调度平台,负责为运算程序提供服务器运算资源,相当于一个分布式的操作系统平台,而MapReduce等运算程序则相当于运行于操作系统之上的应用程序。hdfs用于储存数据,mapreducey负责分析计算,yarn负责资源调度YARN主要由ResourceManager、NodeManager、ApplicationMaster和Container等组件构成2、工作机制...原创 2020-03-11 11:22:10 · 502 阅读 · 0 评论 -
MapReduce简单介绍
1、MapReduce缺点是不擅长实时计算、流式计算、有向图(DAG)计算MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个MapReduce程序,串行运行。2、具体执行一个完整的MapReduce程序在分布式运行时有三类实例进程:1)、MrAppMaster:负责整个程序的过程调度及状态协调。2)、MapTask:...原创 2020-03-10 20:34:57 · 388 阅读 · 0 评论 -
hdfs简介
1、概述:hdfs是一种分布式文件系统,将大的数据量,存储到更多的操作系统管理的磁盘中。适合一次写入,多次读出的场景,且不支持文件的修改。2、组成架构NameNode、DataNode、Client、Secondary NameNode3、hdfs文件块 2.x版本中默认大小是128M,块太小hui会增加寻址时间,块太大导致传输时间过长,处理这块会非常慢。 还需...原创 2020-03-10 14:54:57 · 435 阅读 · 0 评论 -
hadoop运行模式
Hadoop运行模式有三种:本地模式、伪分布式模式以及完全分布式模式。1、本地模式不需要额外的配置,只要执行相应的jar包即可,下面是运行官方Grep案例:bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'2、伪分布式模式...原创 2020-03-09 23:15:35 · 188 阅读 · 0 评论