大数据
南国小豆a
这个作者很懒,什么都没留下…
展开
-
zookeeper介绍
一、概述 Zookeeper是一个开源的分布式的,为分布式应用提供协调服务的Apache项目。 Zookeeper从设计模式角度来理解:是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生变化,Zookeeper就将负责通知已经在Zookeeper上注册的那些观察者做出相应的反应,从而实现集群中类似M...原创 2018-12-13 10:18:32 · 124 阅读 · 0 评论 -
HDFS介绍(十二)HDFS文件读写操作(转)
转自:https://blog.csdn.net/lb812913059/article/details/79717769 HDFS读文件 客户端首先调用FileSystem对象的open方法打开文件,其实获取的是一个DistributedFileSystem的实例。 DistributedFileSystem(类的实例)通过调用RPC(远程过程调用)向namenod...转载 2018-12-15 23:58:57 · 477 阅读 · 0 评论 -
HDFS介绍(二)Hadoop DataNode详解(转)
转自:https://blog.csdn.net/lb812913059/article/details/79717525 一个集群可能包含上千个DataNode节点(最多4000个????????没验证),这些DataNode定时和NameNode进行通信,接受NameNode的指令为了减轻NameNode的负担,NameNode上并不永久保存哪个DataNode上有哪些数据块的信息...转载 2018-12-15 23:59:11 · 526 阅读 · 0 评论 -
HDFS介绍(十三)Hadoop Yarn资源管理——核心组件详解
转自:https://blog.csdn.net/lb812913059/article/details/79920728 相关链接: Hadoop Yarn资源管理——Hadoop1.0与Hadoop2.0对比 YARN是Hadoop 2.0的一个通用的资源管理系统,可为上层应用提供统一的资源管理和调度。 在整个资源管理框架中ResourceManager为Mast...转载 2018-12-15 23:58:46 · 1162 阅读 · 0 评论 -
HDFS介绍(十四) Hadoop Yarn工作机制(转)
转自:https://blog.csdn.net/lb812913059/article/details/79921723 addition: yarn的web interface:http://192.168.2.199:8088/clusteryarn default configure:http://hadoop.apache.org/docs/stable/had...转载 2018-12-15 23:59:28 · 118 阅读 · 0 评论 -
Hadoop之Unable to load native-hadoop library问题解决
在安装好Hadoop后,每次输入命令都会出现下面警告:WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicableStopping namenodes ...提示hadoop不能加载本地...原创 2018-12-18 21:57:38 · 1142 阅读 · 0 评论 -
Hadoop开启关闭调试信息
开启:export HADOOP_ROOT_LOGGER=DEBUG,console关闭:export HADOOP_ROOT_LOGGER=INFO,console实时查看和修改Hadoop日志级别 Hadoop的日志界面可以通过Hadoop命令和Web界面来修改。 Hadoop命令格式:hadoop daemonlog -getlevel <host:p...原创 2018-12-15 23:59:37 · 449 阅读 · 0 评论 -
hadoop启动过程(三)安全模式SafeMode
启动完datanode之后就进入安全模式 安全模式SafeMode 等待DataNodes向他发送block report 启动时total blocks/datanodes blocks = 99.9% 此时安全模式才会退出 在安全模式可进行操作 可查看文件系统的文件 不可改变文件系统的命明空间 ...原创 2018-12-15 23:58:34 · 490 阅读 · 0 评论 -
Hadoop运行模式
1.单机模式(standalone) 在单机模式(standalone)适用于学习与测试环境,在单机模式中不会存在守护进程,所有东西都运行在一个 JVM 上,Hadoop会完全运行在本地。 2.伪分布模式(Pseudo-Distributed Mode) 伪分布式(Pseudo)适用于学习与测试环境,在这个模式中,所有守护进程都在同一台机器上运行。通常用来用作实验、开发...原创 2018-12-15 23:58:03 · 197 阅读 · 0 评论 -
HDFS文件分块信息
[root@bigdata01 ~]# hdfs fsck /mr/analysis_sougoulog/data/sogou_log.txt.flt -blocks -files -locations -racks Connecting to namenode via http://bigdata000:50070/fsck?ugi=root&bl...原创 2018-12-15 23:58:13 · 770 阅读 · 0 评论 -
HDFS元数据管理机制(转)
转自:https://www.cnblogs.com/jifengblog/p/9307791.html HDFS元数据管理机制 元数据管理概述 HDFS元数据,按类型分,主要包括以下几个部分: 1、文件、目录自身的属性信息,例如文件名,目录名,修改 ·· 2、文件记录的信息的存储相关的信息,例如存储块信息,分块情况,副...原创 2018-12-15 23:59:20 · 233 阅读 · 0 评论 -
zookeeper无法启动"Unable to load database on disk"(转)
转自:http://blog.csdn.net/ashic/article/details/47088299 自己的虚拟机集群,一次强制关机后,发现slave2的zookeeper起不来了 下午5点29:53.411 INFO org.apache.zookeeper.server.quorum.QuorumPeerConfig Reading configuration...转载 2018-12-20 19:45:57 · 5045 阅读 · 0 评论 -
kafka 创建消费者报错 consumer zookeeper is not a recognized option
kafka报错内容:WARN [Consumer clientId=consumer-1, groupId=console-consumer-950] Connection to node -1 could not be established. Broker may not be available.这是因为你的配置文件中的PLAINTEXT跟你请求的内容不同。举例来说,我在配置文件里配...原创 2018-12-22 22:14:51 · 1159 阅读 · 0 评论 -
hadoop基本代码(一) word count
开篇语:记于映像笔记,现搬运至csdn。算是大数据的第一份代码,这里做详尽解析,有什么有问题请指出。thx MapReduce:在开始看WordCount的代码之前,先简要了解下什么是MapReduce。HDFS和MapReduce是Hadoop的两个重要核心,其中MR是Hadoop的分布式计算模型。MapReduce主要分为两步Map步和Reduce步,引用网上流传很广的一个...原创 2018-12-18 20:27:54 · 459 阅读 · 1 评论 -
HDFS介绍(七)hadoop block数据块(转)
转自:https://blog.csdn.net/lb812913059/article/details/78713597 block数据块是HDFS文件系统基本的存储单位block(块)128M 小于一个块的文件,不会占据整个块的空间 block数据块大小设置较大的原因(减少花销):1)减少文件寻址时间2)减少管理块的数据开销,每个块都需要在NameNode上有...转载 2018-12-18 21:56:32 · 401 阅读 · 0 评论 -
HDFS介绍(三)Hadoop SecondNameNode详解
详见:hadoop启动过程(二)secondNameNode原创 2018-12-22 22:15:00 · 739 阅读 · 0 评论 -
HDFS介绍(一)Hadoop NameNode详解(转)
转自:https://blog.csdn.net/lb812913059/article/details/78713634 NameNode在内存中保存着整个文件系统的名字空间和文件数据块的地址映射(Blockmap)。如果NameNode宕机,那么整个集群就瘫痪了整个HDFS可存储的文件数受限于NameNode的内存大小这个关键的元数据结构设计得很紧凑,因而一个有4G内存的...转载 2018-12-15 23:57:47 · 1125 阅读 · 0 评论 -
HDFS介绍(十) Hadoop MapReduce简介(转)
转自:https://blog.csdn.net/lb812913059/article/details/79896695 MapReduce分布式并行计算框架是一种可用于数据处理的编程模型,可运行由各种语言编写的MapReduce程序:java、Ruby、Python、R、C++等语言。它用于处理超大规模数据的计算,同时具有可并行计算的特性,因此可以将大规模的数据分析任务交给任...转载 2018-12-14 13:44:47 · 279 阅读 · 0 评论 -
Zookeeper搭建
分布式安装部署0)集群规划在bigdata000、bigdata01和bigdata02三个节点上部署Zookeeper。1)解压安装(1)解压zookeeper安装包到/app/目录下 [root@bigdata000 ~]# tar -zxvf zookeeper-3.4.5-cdh5.15.1.tar.gz -C /app (2)在 /app/zookeeper-3...原创 2018-12-13 10:26:17 · 144 阅读 · 0 评论 -
zookeeper选主过程(转)
大致为:假如一共五台机器A B C D E分别的id为1 2 3 4 5启动了A时,A投给自己一票。A总票数1,未满足一半以上,机器状态looking又启动了C时, A投给C一票,C投给自己一票。A票数为0,C票数为2,未满足一半以上,机器状态looking又启动了D,A投给D一票,C投给D一票,D投给自己一票。A票数为0,C票数为0,D票数为3,,满足一半以上,...转载 2018-12-13 10:27:56 · 343 阅读 · 0 评论 -
Hive内部表和外部表
官网解释:Managed and External TablesBy default Hive creates managed tables, where files, metadata and statistics are managed by internal Hive processes. A managed table is stored under the hive.metas...原创 2018-12-13 10:33:52 · 180 阅读 · 0 评论 -
Hive之——metastore三种配置方式(转)
转自:https://blog.csdn.net/l1028386804/article/details/51564235 Hive的meta数据支持以下三种存储方式,其中两种属于本地存储,一种为远端存储。远端存储比较适合生产环境。Hive官方wiki详细介绍了这三种方式,链接为:Hive Metastore。 一、本地derby 这种方式是最简单的存储方式,只需要在hiv...转载 2018-12-13 10:34:59 · 286 阅读 · 0 评论 -
hdfs 查看文件与块对应信息(转)
转自:http://lxw1234.com/archives/2015/08/452.htm hdfs fsck命令查看HDFS文件对应的文件块信息(Block)和位置信息(Locations)关键字:hdfs fsck、block、locations在HDFS中,提供了fsck命令,用于检查HDFS上文件和目录的健康状态、获取文件的block信息和位置信息等。fsck命令必须...转载 2018-12-13 10:37:18 · 2711 阅读 · 0 评论 -
linux-hadoop集群搭建
A、系统: centos7.2 hadoop-2.6.0-cdh5.15.1 http://archive.cloudera.com/cdh5/cdh/5/hadoop-2.6.0-cdh5.15.1.tar.gz B、角色分配(修改/etc/hostname,/etc/hosts):192....原创 2018-12-13 10:47:11 · 164 阅读 · 0 评论 -
hadoop启动过程(一) NameNode
一、第一次启动 NameNode 内存 本地磁盘 fsimage edits 格式化HDFS,目的是审查隔行fsimage format fsimage start namenode read fsimage sta...原创 2018-12-14 13:19:08 · 655 阅读 · 0 评论 -
hadoop启动过程(二)secondNameNode
作用:定期将namenode的fsimage和edits合并(数据或者操作不多的时候可以关闭 ),可加速hdfs启动(如果edits很多的话,开启会很难) SecondNameNode:它会定期的和namenode就行通信来完成整个的备份操作(????更新fsimage操作)。具体的操作如下:SecondaryNameNode的工作过程:1. SecondaryNam...原创 2018-12-14 13:20:05 · 1032 阅读 · 2 评论 -
hadoop心跳机制(转)
转自:https://blog.csdn.net/lb812913059/article/details/78713523 主节点和从节点之间的通信是通过心跳机制(心跳实际上是一个RPC函数)实现的所谓“心跳”是一种形象化描述,指的是持续的按照一定频率在运行,类似于心脏在永无休止的跳动。 心跳机制: 1) master启动的时候,会开启一个RPC server2) ...转载 2018-12-14 13:20:50 · 888 阅读 · 1 评论 -
windows hadoop编程环境搭建 权限问题
执行代码时候报错permission denied: user=LXUJIE, access=WRITE, inode="/tmp/Wtest.txt":root:supergroup:-rw-r--r-- 1.sudo -u hdfs hadoop fs -mkdir /user/root 我们可以以hdfs的身份对文件进行操作 2.问题:Wind...原创 2018-12-14 13:22:06 · 436 阅读 · 2 评论 -
hadoop开发环境搭建(二)windows远程
A、实现目的: 1.自己更习惯于windows下的代码开发,各种资源方面的比较方便。2.在windows下开发代码,然后再放入linux下跑或者直接windows跑,兼容性很强,系统不影响开发。3.知道有这种方法,尝试一下 B、所需文件: 软件 下载地址 备注 eclipse-jee ...原创 2018-12-14 13:23:37 · 180 阅读 · 0 评论 -
HDFS介绍(四)HDFS副本存放策略(转)
转自:https://blog.csdn.net/lb812913059/article/details/78713467 数据分块存储和副本的存放,是保证可靠性和高性能的关键将每个文件的数据进行分块存储,每一个数据块又保存有多个副本。这些数据块副本分布在不同的机器节点上 设置备份数 方法一:配置文件hdfs-site.xml <proper...转载 2018-12-14 13:24:18 · 674 阅读 · 0 评论 -
HDFS介绍(零) HDFS分布式文件系统简介(转)
转自:https://blog.csdn.net/lb812913059/article/details/79712524 HDFS(Hadoop Distributed File System)Hadoop 分布式文件系统 基于流数据模式访问 就是可以字节序列化的数据,java.io.Serializable接口 分布式文件系统处理的数据必须是流数据,可以写I...转载 2018-12-14 13:28:05 · 206 阅读 · 0 评论 -
hadoop显示只有一个datanode启动
1.datanode无法启动:DataNode(dfs/data/current/VERSION)的clusterID与NameNode(dfs/name/current/VERSION)的不一致,datanode无法启动 解决方法:将NameNode的clusterID复制到DataNode,顺便检查下各个storageID、datanodeUuid是不是不一样的(如果一样需要修改)...原创 2018-12-14 13:41:29 · 5191 阅读 · 0 评论 -
HDFS介绍(九) Hadoop RPC简介(转)
转自:https://blog.csdn.net/lb812913059/article/details/79768375 RPC(Remote Procedure Call)————远程过程调用协议 Hadoop RPC在Hadoop中应用非常广泛,Client、DataNode、NameNode之间的通讯全依赖于它 (1)它允许一台计算机程序远程调用另外一台计算机的子程...转载 2018-12-14 13:42:45 · 221 阅读 · 0 评论 -
HDFS介绍(十一)Hadoop作业运行机制(转)(没怎么看懂)
转自:https://blog.csdn.net/lb812913059/article/details/79897863 hadoop会为每个分片构建一个map任务(是每个分片split都有一个任务,而不是block),map和reduce每个阶段都以键值对作为输入和输出。键是某一行起始位置相对于文件起始位置的偏移量(行偏移量)。 为什么要将MapReduce计算转移到存储有...转载 2018-12-18 22:03:51 · 344 阅读 · 0 评论