2014年02月_slx_2011

原创 hadoop异常处理之map卡住不动

异常描述：在执行MR是map卡住不动了，14/02/27 11:12:55 INFO mapred.JobClient: map 40% reduce 0%异常分析：查看后台日志抛出no space 异常，查看某台datanode，磁盘打满了解决方案，迅速清理一些旧的日志释放空间ps：集群搭建的时候，尽量保持机器资源均衡，否则会出现木桶效应，我

2014-02-27 14:30:35 4618

原创 hbase异常处理之ERROR security.UserGroupInformation

hbase版本： hbase-0.94.6-cdh4.3.2hadoop版本：cdh4.3.2异常描述：12/04/10 19:23:15 ERROR security.UserGroupInformation: PriviledgedActionException as:anchauhan (auth:SIMPLE) cause:java.io.IOExcepti

2014-02-27 13:33:16 1371

原创 hive理解streamtable使用

今天看别人的博客，发现streamtable这个东西，作者描述是：将大表放在JION的右边，这是就需要指定使用/*+ STREAMTABLE(..) */：hive> SELECT /*+ STREAMTABLE(b) */ a.val, b.val, c.val FROM a JOIN b > ON (a.key = b.key1) JOIN c将大表放在JION的右边

2014-02-27 13:27:19 6525 1

转载 hive查询优化总结

转自：http://blog.csdn.net/azhao_dn/article/details/7707811标红的部分，是我在作者的基础上修改的。一、join优化Join查找操作的基本原则：应该将条目少的表/子查询放在 Join 操作符的左边。原因是在 Join 操作的 Reduce 阶段，位于 Join 操作符左边的表的内容会被加载进内存，将条目少的表放在左边

2014-02-27 10:51:56 906

转载 JVM详解之Java垃圾回收机制详解和调优

JVM详解之Java垃圾回收机制详解和调优转自:http://java.ccidnet.com/art/3539/20060314/476073_1.html1.JVM的gc概述　　gc即垃圾收集机制是指jvm用于释放那些不再使用的对象所占用的内存。java语言以及Java 虚拟机规范(注：关于该规范在网上找到了一个中文翻译的版本，地址如下:http://downloa

2014-02-27 10:47:11 620

原创 hbase自带压力测试

今天使用hbase自带的压力测试，压了一下我们的hbase集群集群配置：master 8cpu*32G + 3台8cpu*16G参数配置，修改了zookeeper和hdfs的配置外，其他保持默认测试方式：hbase org.apache.hadoop.hbase.PerformanceEvaluation sequentialWrite 1hbase o

2014-02-26 21:38:31 5079 1

原创 hbase异常org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hbase.ClockOutOfSyncException): org.a

hbase版本：hbase-0.94.6-cdh4.3.2异常描述：启动reginserver时抛出异常Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.hbase.ClockOutOfSyncException): org.apache.hadoop.hbase.ClockOutOfSyncE

2014-02-26 14:50:53 3967

转载 ZooKeeper 安装、配置

转自：http://blog.csdn.net/franklysun/article/details/6424582如题本文介绍的是ZooKeeper 的安装和配置过程，此过程非常简单，关键是如何应用（将放在下节及相关节中介绍）。单机安装、配置：安装非常简单，只要获取到 Zookeeper 的压缩包并解压到某个目录如：/home/frank/

2014-02-26 11:50:09 625

原创 vim格式化代码

使用vim的时候，如何对代码进行格式化呢，一个个的敲回车太淡腾了试试下面的小技巧吧(1) 按两下小写g，即gg，定位光标到第一行。(2) 按住Shift+v，即大写V，进入可视化编辑的列编辑模式。(3) Shift+g，即大写G，选中整个代码。(4) 按下等号=，格式化所有代码。

2014-02-25 15:23:45 978

原创 jps不起作用

在使用jps查看java进程时，有时进程存在但看不到，使用ps aux | grep java是可以看到的，问题根源在于，存放java进行的pid文件不存在了，默认的pid存放在/tmp/hsperfdata_username目录里，造成该问题的原因有二：1、tmp目录权限问题，执行java进程的用户不具有写的权限，没有写进去2、文件被删除了，可能是

2014-02-25 10:39:46 1665

转载 jstat命令PID Not Found问题解决

转自：http://blog.csdn.net/genius5200/article/details/7890266执行Jstat -gcutil ，出现PID Not found在JVM启动参数中添加 -Djava.io.tmpdir=/tmp 注意：tmp文件过期会导致PID Not found，重启应用即可

2014-02-24 18:09:32 7022

原创 linux之awk命令获取最后一列

统计分析中经常用的awk命令，其中用的最多的还是切分cat test | awk -F',' '{print $1,$2} 能够很好的将记录按照需要切分开，但是如何获取最后一列呢？可以使用awk -F',' '{print $NF}' 来获取，mark一下

2014-02-24 15:59:45 84853 2

原创 shell技巧--ssh远程执行包含nohup命令的脚本

使用ssh username@hostip "cmd"，可以实现执行远程命令的效果，不过该方法执行的cmd包含nohup时，很不友好，可以使用如下方法实现：ssh user@host nohup command1 > /dev/null 2>&1 &nohup command2 >> /path/to/command2.log 2>&1 &......EOF

2014-02-22 18:39:32 8308

原创 hadoop异常处理之exceeds the limit of concurrent xcievers 256

hadoop异常处理异常描述java.io.IOException: xceiverCount 258 exceeds the limit of concurrent xcievers 256 at org.apache.hadoop.hdfs.server.datanode.DataXceiver.run(DataXceiver.java:165)

2014-02-22 15:20:01 2227

转载 hbase压力测试

原文链接：http://blog.lars-francke.de/2010/08/16/performance-testing-hbase-using-ycsb/原文作者Lars Francke，德国汉堡的以为自由软件开发者，关注H系列(Hadoop,HBase,Hive,…)分布式系统。这里是对原文的一个不完全的大致的翻译。————————————– 毫无理由的分割线 —————

2014-02-21 19:44:51 2726

原创 linux技巧--查看外网ip

通过curl ifconfig.me，可以方便的查看到外网ip

2014-02-21 19:17:47 980

转载 mysql优化

十点优化经验 1.查询的模糊匹配尽量避免在一个复杂查询里面使用 LIKE '%parm1%'—— 百分号会导致相关列的索引无法使用，最好不要用. 解决办法: 其实只需要对该脚本略做改进，查询速度便会提高近百倍。改进方法如下： a、修改前台程序——把查询条件的供应商名称一栏由原来的文本输入改为下拉列表，用户模糊输

2014-02-21 19:16:30 587

转载 mysql性能分析

MySQL 数据库的性能问题大部分情况下是磁盘IO的问题（索引没建好、查询太复杂）；索引问题的话分析慢查询日志，explain 他们挨个解决。偶尔也有数据库CPU不够的情况，如果并发高CPU不够很正常，如果并发不高，那很可能就是group by/order by/random之类的操作严重消耗了数据库的CPUmysql -e "show full

2014-02-21 19:15:14 572

原创 hadoop运维--ha抛出journalnode can not write

hadoop版本cdh4.3.2异常描述journalnode提示不能写入，后端抛异常1.6.232:50854: error: org.apache.hadoop.hdfs.qjournal.protocol.JournalNotFormattedException: Journal Storage Directory /data/hadoop/journalnode/j

2014-02-21 19:01:47 4343

原创 hadoop运维--开启垃圾箱

为了防止误删除，造成数据无法恢复，建议开启hadoop垃圾箱修改conf/core-site.xml,增加 Xml代码 property> name>fs.trash.intervalname> value>1440value> description>Number of minutes between trash c

2014-02-21 18:59:45 1204

原创 hadoop异常处理--namenode抛出missing blocks

异常描述missing blocks解决方案hadoop fsck -delete 可以移除 missing block如果备份数>=3，一般直接删除即可，如果没有冗余数据，可能会很难恢复

2014-02-21 18:40:47 5849 2

原创 s3cmd使用问题--mv时提示超时

在使用s3cmd命令mv大文件时，会抛出异常：只需要修改.s3cfg文件中的socket_timeout参数取值即可，默认为10s，可以调大到理想状态如100,1000 即可以避免该问题

2014-02-19 21:35:04 1462

原创 shell技巧之显示文件夹下所有文件，且为全路径

使用如下shell命令，可以方便实现find $PWD | xargs ls -ld如果只希望获取到文件非文件夹find $PWD | xargs ls -ld | grep ^- | awk -F' ' '{print $9}'

2014-02-18 17:46:09 2170

转载 Distcp使用手册

DistCp（分布式拷贝）是用于大规模集群内部和集群之间拷贝的工具。它使用Map/Reduce实现文件分发，错误处理和恢复，以及报告生成。它把文件和目录的列表作为map任务的输入，每个任务会完成源列表中部分文件的拷贝。由于使用了Map/Reduce方法，这个工具在语义和执行上都会有特殊的地方。这篇文档会为常用DistCp操作提供指南并阐述它的工作模型。使用方法基本使用方法Di

2014-02-17 17:18:26 910

原创 hadoop调优之jvm重用

当提交的job需要多次mr时，开启jvm重用，可以起到一定的优化效果，减小jvm频繁启动带来的开销只需调整mapredu-site.xml中的mapred.job.reuse.jvm.num.tasks-1-1标示jvm重用的次数不限，可以重用任意次

2014-02-17 15:49:37 1655

原创 hadoop与s3之间互相传输文件

hadoop到s3hadoop distcp hdfs:/user/hive/data/SearchRecord/2014-02-16 s3n://log.voga360.com/hadoop/user/hive/data/SearchRecord/2014-02-16 需要在core-site.xml中配置好fs.s3n.awsAccessKeyId和fs.s3n.awsSecret

2014-02-17 15:42:21 8167 3

原创 hadoop抛出failed to report status for 600 seconds异常

今天在执行hadoop distcp hdfs:/* s3n:/*命令时，抛出failed to report status for 600 seconds异常，异常分析：由于执行合并索引操作时间较长，所以超过了600秒的时间限制，把这个值改高点就不会报错了解决方案：修改mapred-site.xmlproperty> name>mapred.task.ti

2014-02-17 15:37:14 2797

道听途说