花名:白起

科技改变世界,技术改变人生。

hadoop streaming 按字段排序与输出分割详解

1.默认情况 在Hadoop streaming的默认情况下,是以”\t”作为分隔符的。对于标准输入来说,每行的第一个”\t” 以前的部分为key,其他部分为对应的value。如果一个”\t”字符没有,则整行都被当做key。 2.map阶段的sort与partition map阶段很重要...

2017-08-11 16:10:37

阅读数:203

评论数:0

通过hadoop streaming 输入两个文件或目录

通过Hadoop streaming写Mapreduce程序时,会遇到同时处理多个输入文件或者目录的的需求,那么如何在map程序中知道这一条内容到底来自哪个文件? 其实hadoop已经给留了解决方法:在map端获取环境变量mapreduce_map_input_file,即为本次的输入文件。 s...

2017-08-11 14:52:12

阅读数:1213

评论数:0

Hadoop-Streaming实战经验及问题解决方法总结

看到一篇不错的Hadoop-Streaming实战经验的文章,里面有大部分的情景都是自己实战中曾经遇到过的。特意转载过来,感谢有心人的总结。 目录 Join操作分清join的类型很重要… 启动程序中key字段和partition字段的设定… 控制hadoop程序内存的方法…...

2017-07-10 14:18:36

阅读数:132

评论数:0

nfs3方式挂载hdfs实现高可用存储

因为项目使用NFS共享,但是存在着单点故障,后来发现可以将hdfs目录挂载到本地,ambari HDP支持nfs,照着文档的说明去做,很简单完成了。 1.修改hdfs-site.xm vi /etc/hadoop/conf/hdfs-site.xml 如果没有hdfs-site.xml就找hdf...

2017-05-11 12:02:13

阅读数:668

评论数:0

关于hadoop hdfs中Non DFS Used占用很大的问题分析处理

今天帮一个朋友处理hdfs上Non DFS Used占用很大的问题, 从hadoop UI界面看到的节点信息存储容量: Capacity| Used| Non DFS Used| Remaining 4.46T| 1.69T| 1.46T| 1.31T Non DFS Used怎么有这么大,于是先...

2017-04-20 14:23:52

阅读数:2195

评论数:0

hadoop Corrupt blocks或Missing replicas问题处理方法

hadoop集群出现硬盘物理故障导致部分块损坏,出现Corrupt blocks或Missing replicas问题,下面说下如何处理: 1、查看状态: hdfs fsck / 需要等待一些时间 .........Status: CORRUPT  Total size:    ...

2017-04-18 11:27:52

阅读数:2194

评论数:0

hadoop跨集群之间迁移hive数据

Hive跨集群迁移数据工作是会出现的事情, 其中涉及到数据迁移, metastore迁移, hive版本升级等。 1. 迁移hdfs数据至新集群 hadoop distcp -skipcrccheck -update hdfs://xxx.xxx.xxx.xxx:8020/ user/risk ...

2017-04-13 11:51:04

阅读数:2713

评论数:0

hadoop streaming两个数据文件实现join合并操作

hadoop做数据处理,大都是对集合进行操作,因此将数据文件与另一个数据文件进行join的操作需求非常常见。 下面将使用一个例子让新入门的朋友掌握编写方法: [hdfs@server1]$ more clean_item_new 100002303,3368 100002865,11991 10...

2017-04-01 16:26:32

阅读数:1378

评论数:0

ambari中删除journalnode节点

之前谈过如何在ambari中增加journalnode节点服务,这篇将说明如何删除journalnode服务 说明: hadooptest 为集群的名字,不是HA的名字 http://10.11.32.53 为ambari管理界面 hadooptest.bj 为需要删除服务的主机 正常情况,首先...

2017-03-27 14:26:11

阅读数:679

评论数:0

Hadoop Namenode元数据文件 Fsimage、editlog、seen_txid说明

Hadoop NameNode元数据的$dfs.namenode.name.dir/current/文件夹有几个文件: 1 |--current/ 2 |-- VERSION 3 |-- edits_* 4 |-- fsimage_0000000000008547077 5 |-- fsimag...

2017-03-03 18:34:42

阅读数:1052

评论数:0

使用distcp命令跨集群传输数据

Java API等多种接口对HDFS访问模型都集中于单线程的存取,如果要对一个文件集进行操作,就需要编写一个程序来执行并行操作。HDFS提供了一个非常实用的程序--distcp ,用来在Hadoop文件系统中并行地复制大数据量文件。distcp一般适用于在两个HDFS集群间传送数据的情况。如果两个...

2016-11-30 10:21:55

阅读数:2156

评论数:0

Hadoop hdfs界面:Hadoop Non DFS Used大小问题

最近研究hadoop hdfs 中NonDFSUsed容量是什么,Non DFS Used为非hadoop文件系统所使用的空间,比如说本身的linux系统使用的,或者存放的其它文件。 有的时候你会发现HDFS UI界面上显示的Non DFS Used很大,但实际的服务器上都没有那么大的空间了,看看...

2016-11-17 14:40:45

阅读数:1573

评论数:0

mapreduce中MAP数量如何控制?

一、果断先上结论 1.如果想增加map个数,则设置mapred.map.tasks 为一个较大的值。 2.如果想减小map个数,则设置mapred.min.split.size 为一个较大的值。 3.如果输入中有很多小文件,依然想减少map个数,则需要将小文件merger为大文件,然后使用准则2。...

2016-10-28 11:05:41

阅读数:416

评论数:0

使用hadoop streaming进行用户流量分析

本文是用python语言并使用hadoop中的streaming来对用户数据进行分析,统计用户的手机号码、上行流量、下行流量、总流量的信息。 本案例适合hadoop初级人员学习。 一、待分析的数据源 文本文件内容,里面有非常多的用户浏览信息,包括用户手机号码,上网时间,机器序列号,访问的IP,...

2016-09-26 18:00:16

阅读数:359

评论数:0

CDH5.5.1增加新主机

1.说明 CDH机器添加分三种方式 1) 页面向导添加(最好离线,不然会从官网下载安装包时间较长) 2) 软件包手动安装 3) 原始码手动安装(原始码安装需要自己指定管理目录) 这里分享第二种方式,软件包安装方法 2.安装部署 1) 主机名、ip等修改好,关闭防火墙,ssh免密码登录,CM...

2016-09-21 16:14:00

阅读数:2472

评论数:0

Hadoop Balancer运行速度优化

1.修改dfs.datanode.max.transfer.threads = 4096 (如果运行hbase的话建议为16384),指定用于在DataNode间传输block数据的最大线程数,老版本的对应参数为dfs.datanode.max.xcievers 2.修改dfs.datano...

2016-09-14 15:50:21

阅读数:3388

评论数:0

hadoop2.0的datanode多存储硬盘设置数据副本存放策略

集群使用4块硬盘,目前集群中部分节点盘disk1使用率已经超90%,后期可能会出现问题。 在hadoop2.0中,datanode数据副本存放磁盘选择策略有两种方式: 第一种是沿用hadoop1.0的磁盘目录轮询方式,实现类:RoundRobinVolumeChoosingPolicy.java ...

2016-09-13 14:48:18

阅读数:1496

评论数:0

CDH5: 使用parcels配置lzo

本文描述如何在CDH5中,使用parcels配置lzo, 并能正常使用hive进行数据查询 一、Parcel 部署步骤 1 下载: 首先需要下载 Parcel。下载完成后,Parcel 将驻留在 Cloudera Manager 主机的本地目录中。 2 分配: Parcel 下载后,将分配到...

2016-07-14 09:51:42

阅读数:443

评论数:0

Namenode HA自动切换 从Namenode报错Got a command from standby NN - ignoring command:2

Namenode HA自动切换,查看当前的 standby Namenode日志发现,有的节点datanode在与这个standby 通信,查看当前的服务Namenode UI界面,发现存在dead的节点, 登录到节点,服务都正常启动着,尝试把节点的datanode服务重启了下,与当前Nameno...

2016-06-19 13:51:36

阅读数:391

评论数:0

Namenode服务停止Error: flush failed for required journal (JournalAndStream(mgr=QJM to

今天收到告警发现主Namenode服务停止,切换到从Namenode上,查看日志如下: org.apache.hadoop.ipc.RemoteException(java.io.IOException): IPC's epoch 51 is less than the last promise...

2016-06-18 10:41:22

阅读数:2883

评论数:0

提示
确定要删除当前文章?
取消 删除
关闭
关闭