Hadoop
王树民
大JAVA
展开
-
HDFS体系架构
体系架构NameNode HDFS主节点、管理员 接收客户端(命令行、Java程序)的请求:创建目录、上传、下载、删除数据 管理和维护HDFS的日志和元信息 日志文件(edits文件) 二进制文件,记录客户端所有操作,同时体现HDFS的最新状态 $HADOOP_HOME/tmp/dfs/name/current 日志查看器(edits viewer):把edits转成文本(XML)格式 hdfs oev -i edits_inprogress_00000...原创 2020-10-14 09:29:25 · 183 阅读 · 0 评论 -
如何备份ElasticSearch索引数据到HDFS上
在ElasticSearch里面备份策略已经比较成熟了目前在ES5.x中备份支持的存储方式有如下几种: fs //本地挂载的盘 url //网络协议存储支持http,https,ftp repository-s3 //亚马逊 repository-hdfs //HDFS repository-azure //微软 repository-gcs //google 在这里我们主要介绍如何备份索引数据到HDFS上。首先,我们先从名...原创 2020-09-18 19:35:59 · 369 阅读 · 0 评论 -
数据仓库
数据仓库的目标是实现集成、稳定、反映历史变化有组织有结构的存储数据的集合。图 1-1 数据仓库基本架构如上图所示,一个公司可能有多个业务系统,而数据仓库就是将所有的业务系统按照某种组织架构整合起来,形成一个仓储平台,也就是数仓。ODS 层中的数据全部来自于业务数据库,ODS 层的表格与业务数据库中的表格一一对应,就是将业务数据库中的表格在数据仓库的底层重新建立一次,数据与结构完全一致。DWD 层要做的就是将数据清理、整合、规范化,脏数据、垃圾数据、规范不一致的、状态定义不一致的、命名不.原创 2020-05-14 11:32:13 · 1211 阅读 · 0 评论 -
git ssh-add 报错 ssh-add Could not open a connection to your authentication agent
$ ssh-add ~/.ssh/id_rsa.pubCould not open a connection to your authentication agent.启动ssh-agent服务eval `ssh-agent -s`再运行$ ssh-addIdentity added: /c/Users/name/.ssh/id_rsa (/c/Users/nam...原创 2019-10-14 13:40:06 · 298 阅读 · 0 评论 -
hadoop中exmaple运行参数分析
2016年07月05日 20:09:28阅读数:2866问题:想像hadoop-example...jar那样用hadoop运行jar 中多个类。通过查找资料,好像没有java -cp 那样的参数就是下面问题1中提到的那样运行参数,但是自带的例子却好像可以用这样的方式运行,例如下面,用参数运行不同的class.hadoop jar hadoop-example*.jar 10 1000000 ...转载 2018-06-10 08:22:30 · 329 阅读 · 0 评论 -
配置ssh免密码登录
登录后我们就开始搭建我们的hadoop伪分布式系统修改主机名与IP地址的对应关系[root@VM_11_203_centos ~]# hostname查看主机名[root@VM_11_203_centos ~]# vim /etc/hosts修改文件为一下内容然后输入reboot重启机器配置ssh免密码登录[root@VM_11_203_centos ~]# ssh 211.15...转载 2018-11-26 13:03:56 · 823 阅读 · 0 评论 -
HBase源码分析之HRegion上compact流程分析(二)
2016年03月03日 21:38:04 辰辰爸的技术博客 阅读数:2767版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/lipeng_bigdata/article/details/50791205 继《HBase源码分析之HRegion上compact流程分析(一)》一文后,我们继续HRegion上compact流...转载 2018-11-29 14:25:09 · 473 阅读 · 0 评论 -
Trafodion 安装之HBase配置优化
2017年06月27日 10:21:36 post_yuan 阅读数:789版权声明:本文为博主原创文章,如需转载,请注明出处。 https://blog.csdn.net/Post_Yuan/article/details/73770961Trafodion安装后,建议对HBase的配置参数做一些调整,如TimeOut相关,这些参数的调整可以减少甚至避免某些因为超时而导致的错误。...转载 2018-11-29 17:23:54 · 186 阅读 · 0 评论 -
Hbase万亿级存储性能优化总结
2014年12月07日 23:49:30 代立冬 阅读数:12191更多所属专栏: 大数据实战系列版权声明:*************本文为博主原创文章,转载请注明出处************* https://blog.csdn.net/oDaiLiDong/article/details/41794403背景 hbase主集群在生产环境已稳定运行有1年半时间,...转载 2018-11-27 10:42:57 · 426 阅读 · 0 评论 -
iotop命令
性能监测与优化《Linux就该这么学》是一本基于最新Linux系统编写的入门必读书籍,内容面向零基础读者,由浅入深渐进式教学,销量保持国内第一,年销售量预期超过10万本。点此免费在线阅读。iotop命令是一个用来监视磁盘I/O使用状况的top类工具。iotop具有与top相似的UI,其中包括PID、用户、I/O、进程等相关信息。Linux下的IO统计工具如iostat,nmon等...转载 2018-11-30 16:41:04 · 209 阅读 · 0 评论 -
linux磁盘读写性能监控
2013年09月08日 10:57:45 l1905 阅读数:5672更多个人分类: linux转载地址:http://blog.csdn.net/jack161641/article/details/7281923 贡献一些我平常用的监控服务器性能的命令1.硬盘读写性能,#查看TPS和吞吐量信息iostat -d -k 1 10 Device: ...转载 2018-11-30 17:07:15 · 2433 阅读 · 0 评论 -
JVM调优总结 -Xms -Xmx -Xmn -Xss
堆大小设置 JVM 中最大堆大小有三方面限制:相关操作系统的数据模型(32-bt还是64-bit)限制;系统的可用虚拟内存限制;系统的可用物理内存限制。32位系统下,一般限制在1.5G~2G;64为操作系统对内存无限制。我在Windows Server 2003 系统,3.5G物理内存,JDK5.0下测试,最大可设置为1478m。典型设置: java -Xmx3550m -Xms355...转载 2018-11-28 15:49:47 · 746 阅读 · 0 评论 -
Hadoop-2.7.1伪分布式环境搭建
背景: 阅读新闻 Hadoop-2.7.1伪分布式环境搭建 [日期:2016-04-20] 来源:Linux社区 作者:thfeng [字体:大 中 小] 1.准备Linux环境 1.0 点击VMware快捷方式,右键打开文件所在位置 -> 双击vmnetcfg.exe -&g...转载 2018-11-26 11:48:19 · 528 阅读 · 0 评论 -
Kafka auto.offset.reset值详解
Kafka auto.offset.reset值详解2017年07月06日 11:25:22 lishuangzhe7047 阅读数:35344 标签: kafka 更多个人分类: Kafka版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/lishuangzhe7047/article/details/74530417昨天在写一个j...转载 2018-11-07 18:39:52 · 2616 阅读 · 0 评论 -
2:java.io.IOException: Could not locate executable null\bin\winutils.exe in the Hadoop binaries.
大数据Hadoop2.2.0-eclipse插件(二)2016-10-22 11:02大数据/AR下载hadoop-common-2.2.0-bin-master.zip下载地址为:https://github.com/srccodes/hadoop-common-2.2.0-bin也可以在国内进行下载将下载里面的将bin目录里面的hadoop.dll和winutils.ext这两个文件放到Had...转载 2018-06-10 08:22:19 · 12064 阅读 · 1 评论 -
MapReduce运算框架主体工作流程
原创 2018-06-10 09:19:22 · 251 阅读 · 0 评论 -
YARN的内存和CPU配置
2016年11月21日 09:50:07阅读数:267Hadoop YARN同时支持内存和CPU两种资源的调度,本文介绍如何配置YARN对内存和CPU的使用。YARN作为一个资源调度器,应该考虑到集群里面每一台机子的计算资源,然后根据application申请的资源进行分配Container。Container是YARN里面资源分配的基本单位,具有一定的内存以及CPU资源。在YARN集群中,平衡内...转载 2018-06-30 20:05:01 · 1102 阅读 · 0 评论 -
hadoop 添加节点
标题原创 2018-08-22 22:41:52 · 132 阅读 · 0 评论 -
HDFS文件内容追加(Append)
2014年10月10日 11:58:29 阅读数:7940 HDFS设计之处并不支持给文件追加内容,这样的设计是有其背景的(如果想了解更多关于HDFS的append的曲折实现,可以参考《File Appends in HDFS》:http://blog.cloudera.com/blog/2009/07/file-appends-in-hdfs/),但从HDFS2.x开始支持给文件追加内...转载 2018-09-12 09:11:05 · 7554 阅读 · 0 评论 -
实战项目中Java heap space错误的解决
java高级面试 2018-09-07 20:19:23部标GPS通讯系统在上线之后,经过不断调试,终于稳定运行一段时间,后来又遇到了Java heap space错误异常!日志如下: 说明系统中有未释放的对象。如何找出这些未释放对象以及监控JVM堆内存,优化代码释放内存对象呢?还有JVM的垃圾回收机制是如何运作的呢?首先在系统启动运行的时候打开记录GC详细信息,运行脚本...转载 2018-09-10 12:41:06 · 30859 阅读 · 1 评论 -
linux查看文件有多少行数据
我来答分享举报浏览 5717 次1个回答#今日热议# 主持人李咏去世,你对他印象最深的是什么?最佳答案热心网友 2017-02-17wc命令的功能为统计指定文件中的字节数、字数、行数, 并将统计结果显示输出。语法:wc [选项] 文件…说明:该命令统计给定文件中的字节数、字数、行数。如果没有给出文件名,则从标准输入读取。wc同时也给出所有指定文件的总统计数...转载 2018-10-29 15:14:55 · 5267 阅读 · 0 评论 -
Flume HDFS Sink使用及源码分析
Flume HDFS Sink使用及源码分析HDFS Sink介绍Flume导入数据HDFS,目前只支持创建序列化(sequence)文件和文本(text)文件。还支持这两个文件的压缩。文件可以根据运行的时间,数据的大小和时间的数量来进行周期性的滚动(关闭当前文件产生新的文件)。也可以根据数据属性分区,例如根据时间戳或机器分区。HDFS目录路径可以包含格式化的转义字符,生成目录路径可以通过...原创 2018-11-06 10:24:27 · 678 阅读 · 0 评论 -
netstat命令
网络测试《Linux就该这么学》是一本基于最新Linux系统编写的入门必读书籍,内容面向零基础读者,由浅入深渐进式教学,销量保持国内第一,年销售量预期超过10万本。点此免费在线阅读。netstat命令用来打印Linux中网络系统的状态信息,可让你得知整个Linux系统的网络情况。语法netstat(选项)选项-a或--all:显示所有连线中的Socket;-...转载 2018-12-06 09:13:09 · 975 阅读 · 0 评论 -
Hadoop添加新的节点
2012年09月19日 14:56:07 oO寒枫Oo 阅读数:5412版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/lxpbs8851/article/details/79960591.修改host 1) 新的slave的ip添加到master/etc/hosts中 2) 新的slave的ip添加到slaves的/etc/...转载 2018-12-19 13:40:09 · 340 阅读 · 1 评论 -
MapReduce计算框架的一般流程有以下几个步骤
MapReduce计算框架的一般流程有以下几个步骤:输入 ( Input ) 和拆分 ( Split ):对数据进行分片处理。将源文件内容分片成一系列的 InputSplit,每个 InputSplit 存储着对应分片的数据信息,记住是对文件内容进行分片,并不是将源文件拆分成多个小文件。迭代 ( iteration ):遍历输入数据,并将之解析成 key/value 对。拆分数据片...原创 2019-10-11 16:09:43 · 3020 阅读 · 0 评论 -
MapReduce工作流程最详细解释
32018.10.18 00:01:39字数 2564阅读 35408MapReduce是我们再进行离线大数据处理的时候经常要使用的计算模型,MapReduce的计算过程被封装的很好,我们只用使用Map和Reduce函数,所以对其整体的计算过程不是太清楚,同时MapReduce1.0和MapReduce2.0在网上有很多人混淆。MapReduce1.0运行模型20170730...转载 2019-10-11 16:02:14 · 8401 阅读 · 0 评论 -
MapReduce的原理及执行过程
MapReduce简介MapReduce是一种分布式计算模型,是Google提出的,主要用于搜索领域,解决海量数据的计算问题。 MR有两个阶段组成:Map和Reduce,用户只需实现map()和reduce()两个函数,即可实现分布式计算。MapReduce执行流程MapReduce原理MapReduce的执行步骤:1、Map任务处理 1....转载 2019-10-11 15:59:47 · 264 阅读 · 0 评论 -
Hadoop Shell命令
FS Shell cat chgrp chmod chown copyFromLocal copyToLocal cp du dus expunge get getmerge ls lsr mkdir movefromLocal mv put rm rmr setrep stat tail tes...原创 2019-10-08 17:40:11 · 100 阅读 · 0 评论 -
HDFS读写文件流程
2016年11月24日 23:49:50lijie_cq阅读数 17480标签:hdfshadoopnamenodedatanode更多个人分类:hadoop版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/qq_20641565/article/details/533282791.HDFS写流程:客户端要向HDFS写...转载 2019-06-20 18:09:12 · 403 阅读 · 0 评论 -
MapReduce shuffle过程剖析及调优
MapReduce shuffle过程剖析及调优2016年07月18日 01:48:03 Lust-Ring 阅读数:10424 标签: mapreducehadoop 更多个人分类: Hadoop版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/bingduanlbd/article/details/51933914更新记录20...转载 2019-02-25 13:17:01 · 198 阅读 · 0 评论 -
用MapReduce把hdfs数据写入HBase中
2017年03月01日 09:20:50 技术人的突破 阅读数:41171.使用Map+Reduce方式 public class MapReduceImport { /** * Mapper */ static class HMapper extends Mapper<LongWritable, Text, LongW...原创 2019-02-12 13:31:51 · 665 阅读 · 0 评论 -
MapReduce中的map与reduce
博客园 首页 新随笔 联系 管理 订阅随笔- 50 文章- 1 评论- 0 MapReduce中的map与reduce 本文主要介绍MapReduce的map与reduce所包含的各各阶段 MapReduce中的每个map任务可以细分4个阶段:record reader、mapper、combiner和partitioner。map...转载 2019-02-12 09:19:47 · 9149 阅读 · 1 评论 -
MapReduce概述,原理,执行过程
MapReduce概述 MapReduce是一种分布式计算模型,运行时不会在一台机器上运行.hadoop是分布式的,它是运行在很多的TaskTracker之上的. 在我们的TaskTracker上面跑的是Map或者是Reduce Task任务. 通常我们在部署hadoop taskTracker 的时候,我们的TaskTracker同时还是我们的Datanode节点.datan...转载 2019-02-12 08:53:47 · 1126 阅读 · 0 评论 -
Hbase表两种数据备份方法-导入和导出示例
Hbase表两种数据备份方法-导入和导出示例置顶 2018年05月15日 17:39:46 Data_IT_Farmer 阅读数:1686 版权声明:本文为博主原创文章,未经博主允许不得转载。 https://blog.csdn.net/helloxiaozhe/article/details/80325212Hbase表两种数据备份方法-导入和导出示例本文将提供两种备份方法 ——...转载 2019-02-02 14:20:45 · 2488 阅读 · 0 评论 -
HAProxy安装配置详解
简介HAProxy提供高可用性、负载均衡以及基于TCP和HTTP应用的代理,支持虚拟主机,它是免费、快速并且可靠的一种解决方案。HAProxy特别适用于那些负载特大的web站点,这些站点通常又需要会话保持或七层处理。HAProxy运行在当前的硬件上,完全可以支持数以万计的并发连接。并且它的运行模式使得它可以很简单安全的整合进您当前的架构中, 同时可以保护你的web服务器不被暴露到...转载 2018-12-25 09:22:44 · 187 阅读 · 0 评论 -
kafka中处理超大消息的一些考虑
时间:2015-02-01 00:38:26 阅读:5854 评论:0 收藏:0 [点我收藏+]标签:Kafka设计的初衷是迅速处理短小的消息,一般10K大小的消息吞吐性能最好(可参见LinkedIn的kafka性能测试)。但有时候,我们需要处理更大的消息,比如XML文档或JSON内容,一个消息差不多有10-100M,这种情况下,Kakf...转载 2018-12-12 09:12:01 · 1104 阅读 · 0 评论 -
运行时候报异常could only be replicated to 0 nodes instead of minReplication (=1). There are 2 datanode(s) r
运行时候报异常could only be replicated to 0 nodes instead of minReplication (=1). There are 2 datanode(s) running and no node(s) are excluded in this operation.运行时候报异常could only be replicated to 0 nodes in...转载 2018-12-22 09:46:53 · 779 阅读 · 0 评论 -
hbase优化操作与建议
一、服务端调优 1、参数配置 1)、hbase.regionserver.handler.count:该设置决定了处理RPC的线程数量,默认值是10,通常可以调大,比如:150,当请求内容很大(上MB,比如大的put、使用缓存的scans)的时候,如果该值设置过大则会占用过多的内存,导致频繁的GC,或者出现OutOfMemory,因此该值不是越大越好。 2...转载 2018-12-17 11:27:59 · 438 阅读 · 0 评论 -
Ganglia的安装、配置、运行 解析详情
2017年05月24日 09:12:42 缱绻浮生丶 阅读数:5908 标签: ganglia系统监控大数据 更多个人分类: Ganglia一、安装ganglia:网上示例很多,对该部分的翻译后续再跟进。二、配置ganglia:默认的配置仅仅能使ganglia工作,如果了解比默认配置多的配置项,能帮助你更好的使用ganglia做监控部署。(1)gmod:安装在每个...转载 2018-12-10 16:36:38 · 481 阅读 · 0 评论 -
hadoop三个配置文件的参数含义说明
2016年06月05日 21:03:07 hallelujahCTX 阅读数:4570hadoop常用端口配置1. HDFS端口 参数 描述 默认 配置文件 例子值 fs.default.name namenode RPC交互端口 ...转载 2018-12-21 13:41:56 · 404 阅读 · 0 评论