![](https://img-blog.csdnimg.cn/20201014180756919.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
我真的不想学啦
这个作者很懒,什么都没留下…
展开
-
Hbase报错:ERROR: Can't get master address from ZooKeeper; znode data == null
Hbase报错:ERROR: Can’t get master address from ZooKeeper; znode data == null方法一:查看日志报SessionExpiredException: KeeperErrorCode = Session expired for /hbase/master原因一: 所以是hbase 和 zookeeper之间会话超时了,按照官网...原创 2019-12-11 08:45:09 · 6246 阅读 · 0 评论 -
Flume的多种配置方式
文章目录Flume接受telent数据第一步:开发配置文件第二步:启动配置文件第三步:安装telent准备测试采集目录到HDFS配置文件编写:启动flume上传文件到指定目录采集文件到HDFS需求分析:定义flume的配置文件启动flume开发shell脚本定时追加文件内容两个agent级联需求分析:第一步:node02安装flume第二步:node02配置flume配置文件第三步:node02开...原创 2019-12-05 16:42:19 · 641 阅读 · 0 评论 -
Flume简介及安装部署
在一个完整的离线大数据处理系统中,除了hdfs+mapreduce+hive组成分析系统的核心之外,还需要数据采集、结果数据导出、任务调度等不可或缺的辅助系统,而这些辅助工具在hadoop生态体系中都有便捷的开源框架,如图所示:概述Flume是一个分布式、可靠、和高可用的海量日志采集、聚合和传输的系统。Flume可以采集文件,socket数据包、文件、文件夹、kafka等各种形式源数据,...原创 2019-12-05 16:00:42 · 133 阅读 · 0 评论 -
Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.MoveTask. MetaException(message:E
在hive上传数据时 输入hive (db_emp)> load data local inpath ‘/opt/datas/emp.txt’ into table emp_part partition(date=‘2018120’);这个命令则会报出以下错误:hive (test)> load data local inpath ‘/tmp/hivedatas/score.cs...原创 2019-11-20 16:25:42 · 3893 阅读 · 1 评论 -
如何自定义InputFormat合并小文件
需求无论hdfs还是mapreduce,对于小文件都有损效率,实践中,又难免面临处理大量小文件的场景,此时,就需要有相应解决方案分析小文件的优化无非以下几种方式:1、在数据采集的时候,就将小文件或小批数据合成大文件再上传HDFS2、在业务处理之前,在HDFS上使用mapreduce程序对小文件进行合并3、在mapreduce处理时,可采用combineInputFormat提高效率实...原创 2019-11-18 20:05:40 · 187 阅读 · 2 评论 -
HDFS的小文件合并成大文件
前提:在实际项目中,输入数据往往是由许多小文件组成,这里的小文件是指小于HDFS系统Block大小的文件(默认128M), 然而每一个存储在HDFS中的文件、目录和块都映射为一个对象,存储在NameNode服务器内存中,通常占用150个字节。由于Hadoop擅长存储大文件,因为大文件的元数据信息比较少,如果Hadoop集群当中有大量的小文件,那么每个小文件都需要维护一份元数据信息,会大大的增加...原创 2019-11-07 16:13:44 · 5924 阅读 · 1 评论 -
refreshNodes: Call From X/IP to X:端口号 failed on connection exception:拒绝访问
问题描述增加新节点刷新时 , 在主节点 执行以下命令刷新namenodehdfs dfsadmin -refreshNodesRefresh nodes successful出现如下问题:[root@kk1 hadoop]# hdfs dfsadmin -refreshNodesrefreshNodes: Call From kk1/192.168.100.100 to kk1:802...原创 2019-11-06 11:02:54 · 347 阅读 · 2 评论 -
Hadoop如何开启JobHistoryServer
进入Hadoop的sbin目录下,输入 :./mr-jobhistory-daemon.sh start historyserver再次输入JPS查看是否打开原创 2019-11-05 09:23:59 · 4161 阅读 · 3 评论 -
详解HDFS文件读写流程
文件写入过程详细步骤解析:client发起文件上传请求,通过RPC与NameNode建立通讯,NameNode检查目标文件是否已存在,父目录是否存在,返回是否可以上传client请求第一个block该传输到哪些DataNode服务器上NameNode根据配置文件中指定的备份数量及机架感知原理进行文件分配,返回可用的DataNode的地址如:A,B,C;client请求3台DataNo...原创 2019-11-05 09:16:18 · 190 阅读 · 0 评论 -
HDFS基本介绍
HDFS基本介绍HDFS是 Hadoop Distribute File System 的简称,意为:Hadoop 分布式文件系统。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。分布式文件系统解决的问题就是大数据存储。 它们是横跨在多台计算机上的存储系统。分布式文件系统在大数据时代有着广泛的应用前景,它们为存储和处理超大规模数据提供所需的扩展能力。HDFS使用Mast...原创 2019-11-04 09:33:21 · 263 阅读 · 5 评论 -
Linux安装Hadoop集群超详细教程
环境:CentOS6.9+hadoop-2.6.0安装环境服务部署规划注 : 代码已全部标注第一步:上传压缩包并解压将我们重新编译之后支持snappy压缩的Hadoop包上传到第一台服务器并解压(如果没有重新编译的文件可以去看我的上一篇文章:Linux中CDH版本Hadoop重新编译)第一台机器执行以下命令cd /export/softwares/mv hadoop-2.6.0-c...原创 2019-10-31 20:20:09 · 529 阅读 · 1 评论 -
Linux中CDH版本Hadoop重新编译
为什么要编译Hadoop由于CDH的所有安装包版本都给出了对应的软件版本,一般情况下是不需要自己进行编译的,但是由于CDH给出的Hadoop的安装包没有提供带C程序访问的接口,所以我们在使用本地库(本地库可以用来做压缩,以及支持C程序等等)的时候就会出问题。由于后续需要使用snappy进行压缩数据,而CDH给出的Hadoop的安装包没有提供带C程序访问的接口,无法使用snappy,所以使用本地...原创 2019-10-31 17:48:19 · 198 阅读 · 0 评论 -
大数据为什么那么快?
传统数据与大数据处理方式对比扩展性传统的是纵向扩展:服务器数量不发生变化,配置越来越高。大数据横向扩展:服务器数量越来越多,配置不发生变化。分布式传统的方式资源(CPU、内存、硬盘)集中大数据方式资源(CPU、内存、硬盘)分布(前提:同等配置的前提下)可用性传统数据备份方式为单份备份大数据数据备份方式为多分备份(数据复制,默认三个副本)模型传统的计算模型是移动数据到程序端大...原创 2019-10-31 17:13:58 · 294 阅读 · 1 评论