- 博客(27)
- 收藏
- 关注
原创 hadoop异常处理之map卡住不动
异常描述:在执行MR是map卡住不动了,14/02/27 11:12:55 INFO mapred.JobClient: map 40% reduce 0%异常分析:查看后台日志抛出no space 异常,查看某台datanode,磁盘打满了解决方案,迅速清理一些旧的日志释放空间ps:集群搭建的时候,尽量保持机器资源均衡,否则会出现木桶效应,我
2014-02-27 14:30:35 4618
原创 hbase异常处理之ERROR security.UserGroupInformation
hbase版本: hbase-0.94.6-cdh4.3.2hadoop版本:cdh4.3.2异常描述:12/04/10 19:23:15 ERROR security.UserGroupInformation: PriviledgedActionException as:anchauhan (auth:SIMPLE) cause:java.io.IOExcepti
2014-02-27 13:33:16 1371
原创 hive理解streamtable使用
今天看别人的博客,发现streamtable这个东西,作者描述是:将大表放在JION的右边,这是就需要指定使用/*+ STREAMTABLE(..) */:hive> SELECT /*+ STREAMTABLE(b) */ a.val, b.val, c.val FROM a JOIN b > ON (a.key = b.key1) JOIN c将大表放在JION的右边
2014-02-27 13:27:19 6525 1
转载 hive查询优化总结
转自:http://blog.csdn.net/azhao_dn/article/details/7707811标红的部分,是我在作者的基础上修改的。一、join优化Join查找操作的基本原则:应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段,位于 Join 操作符左边的表的内容会被加载进内存,将条目少的表放在左边
2014-02-27 10:51:56 906
转载 JVM详解之Java垃圾回收机制详解和调优
JVM详解之Java垃圾回收机制详解和调优转自:http://java.ccidnet.com/art/3539/20060314/476073_1.html1.JVM的gc概述 gc即垃圾收集机制是指jvm用于释放那些不再使用的对象所占用的内存。java语言以及Java 虚拟机规范(注:关于该规范在网上找到了一个中文翻译的版本,地址如下:http://downloa
2014-02-27 10:47:11 620
原创 hbase自带压力测试
今天使用hbase自带的压力测试,压了一下我们的hbase集群集群配置:master 8cpu*32G + 3台8cpu*16G参数配置,修改了zookeeper和hdfs的配置外,其他保持默认测试方式:hbase org.apache.hadoop.hbase.PerformanceEvaluation sequentialWrite 1hbase o
2014-02-26 21:38:31 5079 1
原创 hbase异常org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hbase.ClockOutOfSyncException): org.a
hbase版本:hbase-0.94.6-cdh4.3.2异常描述:启动reginserver时抛出异常Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hbase.ClockOutOfSyncException): org.apache.hadoop.hbase.ClockOutOfSyncE
2014-02-26 14:50:53 3967
转载 ZooKeeper 安装、配置
转自:http://blog.csdn.net/franklysun/article/details/6424582如题本文介绍的是ZooKeeper 的安装和配置过程,此过程非常简单,关键是如何应用(将放在下节及相关节中介绍)。 单机安装、配置: 安装非常简单,只要获取到 Zookeeper 的压缩包并解压到某个目录如:/home/frank/
2014-02-26 11:50:09 625
原创 vim格式化代码
使用vim的时候,如何对代码进行格式化呢,一个个的敲回车太淡腾了试试下面的小技巧吧(1) 按两下小写g,即gg,定位光标到第一行。(2) 按住Shift+v,即大写V,进入可视化编辑的列编辑模式。(3) Shift+g,即大写G,选中整个代码。(4) 按下等号=,格式化所有代码。
2014-02-25 15:23:45 978
原创 jps不起作用
在使用jps查看java进程时,有时进程存在但看不到,使用ps aux | grep java是可以看到的,问题根源在于,存放java进行的pid文件不存在了,默认的pid存放在/tmp/hsperfdata_username目录里,造成该问题的原因有二:1、tmp目录权限问题,执行java进程的用户不具有写的权限,没有写进去2、文件被删除了,可能是
2014-02-25 10:39:46 1665
转载 jstat命令PID Not Found问题解决
转自:http://blog.csdn.net/genius5200/article/details/7890266执行Jstat -gcutil ,出现PID Not found在JVM启动参数中添加 -Djava.io.tmpdir=/tmp 注意:tmp文件过期会导致PID Not found,重启应用即可
2014-02-24 18:09:32 7022
原创 linux之awk命令获取最后一列
统计分析中经常用的awk命令,其中用的最多的还是切分cat test | awk -F',' '{print $1,$2} 能够很好的将记录按照需要切分开,但是如何获取最后一列呢?可以使用awk -F',' '{print $NF}' 来获取,mark一下
2014-02-24 15:59:45 84853 2
原创 shell技巧--ssh远程执行包含nohup命令的脚本
使用ssh username@hostip "cmd",可以实现执行远程命令的效果,不过该方法执行的cmd包含nohup时,很不友好,可以使用如下方法实现:ssh user@host nohup command1 > /dev/null 2>&1 &nohup command2 >> /path/to/command2.log 2>&1 &......EOF
2014-02-22 18:39:32 8308
原创 hadoop异常处理之exceeds the limit of concurrent xcievers 256
hadoop异常处理异常描述java.io.IOException: xceiverCount 258 exceeds the limit of concurrent xcievers 256 at org.apache.hadoop.hdfs.server.datanode.DataXceiver.run(DataXceiver.java:165)
2014-02-22 15:20:01 2227
转载 hbase压力测试
原文链接:http://blog.lars-francke.de/2010/08/16/performance-testing-hbase-using-ycsb/原文作者Lars Francke,德国汉堡的以为自由软件开发者,关注H系列(Hadoop,HBase,Hive,…)分布式系统。这里是对原文的一个不完全的大致的翻译。————————————– 毫无理由的分割线 —————
2014-02-21 19:44:51 2726
转载 mysql优化
十点优化经验 1.查询的模糊匹配 尽量避免在一个复杂查询里面使用 LIKE '%parm1%'—— 百分号会导致相关列的索引无法使用,最好不要用. 解决办法: 其实只需要对该脚本略做改进,查询速度便会提高近百倍。改进方法如下: a、修改前台程序——把查询条件的供应商名称一栏由原来的文本输入改为下拉列表,用户模糊输
2014-02-21 19:16:30 587
转载 mysql性能分析
MySQL 数据库的性能问题大部分情况下是磁盘IO的问题(索引没建好、查询太复杂);索引问题的话分析慢查询日志,explain 他们挨个解决。偶尔也有数据库CPU不够的情况,如果并发高CPU不够很正常,如果并发不高,那很可能就是group by/order by/random之类的操作严重消耗了数据库的CPUmysql -e "show full
2014-02-21 19:15:14 572
原创 hadoop运维--ha抛出journalnode can not write
hadoop版本cdh4.3.2异常描述journalnode提示不能写入,后端抛异常1.6.232:50854: error: org.apache.hadoop.hdfs.qjournal.protocol.JournalNotFormattedException: Journal Storage Directory /data/hadoop/journalnode/j
2014-02-21 19:01:47 4343
原创 hadoop运维--开启垃圾箱
为了防止误删除,造成数据无法恢复,建议开启hadoop垃圾箱修改conf/core-site.xml,增加 Xml代码 property> name>fs.trash.intervalname> value>1440value> description>Number of minutes between trash c
2014-02-21 18:59:45 1204
原创 hadoop异常处理--namenode抛出missing blocks
异常描述missing blocks解决方案hadoop fsck -delete 可以移除 missing block如果备份数>=3,一般直接删除即可,如果没有冗余数据,可能会很难恢复
2014-02-21 18:40:47 5849 2
原创 s3cmd使用问题--mv时提示超时
在使用s3cmd命令mv大文件时,会抛出异常:只需要修改.s3cfg文件中的socket_timeout参数取值即可,默认为10s,可以调大到理想状态如100,1000 即可以避免该问题
2014-02-19 21:35:04 1462
原创 shell技巧之显示文件夹下所有文件,且为全路径
使用如下shell命令,可以方便实现find $PWD | xargs ls -ld如果只希望获取到文件非文件夹find $PWD | xargs ls -ld | grep ^- | awk -F' ' '{print $9}'
2014-02-18 17:46:09 2170
转载 Distcp使用手册
DistCp(分布式拷贝)是用于大规模集群内部和集群之间拷贝的工具。 它使用Map/Reduce实现文件分发,错误处理和恢复,以及报告生成。 它把文件和目录的列表作为map任务的输入,每个任务会完成源列表中部分文件的拷贝。 由于使用了Map/Reduce方法,这个工具在语义和执行上都会有特殊的地方。 这篇文档会为常用DistCp操作提供指南并阐述它的工作模型。 使用方法基本使用方法Di
2014-02-17 17:18:26 910
原创 hadoop调优之jvm重用
当提交的job需要多次mr时,开启jvm重用,可以起到一定的优化效果,减小jvm频繁启动带来的开销只需调整mapredu-site.xml中的mapred.job.reuse.jvm.num.tasks-1-1标示jvm重用的次数不限,可以重用任意次
2014-02-17 15:49:37 1655
原创 hadoop与s3之间互相传输文件
hadoop到s3hadoop distcp hdfs:/user/hive/data/SearchRecord/2014-02-16 s3n://log.voga360.com/hadoop/user/hive/data/SearchRecord/2014-02-16 需要在core-site.xml中配置好fs.s3n.awsAccessKeyId和fs.s3n.awsSecret
2014-02-17 15:42:21 8167 3
原创 hadoop抛出failed to report status for 600 seconds异常
今天在执行hadoop distcp hdfs:/* s3n:/*命令时,抛出failed to report status for 600 seconds异常,异常分析:由于执行合并索引操作时间较长,所以超过了600秒的时间限制,把这个值改高点就不会报错了解决方案:修改mapred-site.xmlproperty> name>mapred.task.ti
2014-02-17 15:37:14 2797
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人