2016年09月_木东居士

原创一次jVM性能调优记录

前言填别人留下来的坑其实挺无奈的，会被搞的特别烦，特别是我这种要填三四个人留下来的坑的时候，满满的都是无奈。幸好的是填坑也可以选择一种更能提升自己的方式来填。这次遇到的一个程序，是一个从kafka消费并且插入mysql的程序，该程序历经三人之手，频频出问题，一直没有被解决。传到现在，症状是这样的：该程序跑个两三天后会莫名其妙的停止消费，不再插入数据了，据说也不报错，进程还在，反正就是不干活了。分析过

2016-09-22 00:17:09 3540

原创 kafka丢数据、重复数据分析

前言填别人的坑again。数据不正常，追到kafka这里了，分析了很久的程序，做一个总结，关于丢数据和重复数据。丢数据先说丢数据。目前遇到一种丢数据的情况。如果auto.commit.enable=true，当consumer fetch了一些数据但还没有完全处理掉的时候，刚好到commit interval出发了提交offset操作，接着consumer crash掉了。这时已经fetch的数据还

2016-09-21 20:42:20 7566

原创 Ubuntu安装Opencv记录（附人脸识别和人眼识别例子）

安装步骤环境Ubuntu 14.04 虚拟机Opencv 3.1.0下载官网：http://opencv.org/国内的一个下载地址：http://blog.csdn.net/yanzi1225627/article/details/47668021安装依赖sudo apt-get install build-essential libgtk2.0-dev libavcodec-dev

2016-09-18 11:28:14 6019 2

原创 hadoop清空回收站

直接删除目录（不放入回收站）hdfs dfs -rm -skipTrash /path/to/file/you/want/to/remove/permanently如果不加-skipTrash，删除的目录会放入/user/hdfs/.Trash中。有专门的配置项来指定什么时候清空回收站。清空回收站hdfs dfs -expunge This should give you output simi

2016-09-18 11:11:45 27002

原创 Flume NG 部署实践

前言由于数据量不是特别大，因此我们在使用Flume的时候没有使用分区，基本上就是在业务端的web server上部署了一个agent，然后输出到hdfs上。部署kafka 数据源可以参考我的另一篇文章，里面讲了我在工作中遇到的定制的kafka source。tail 数据源flume ng里面可以使用Exec Source来代替。其实就相当于执行了一个tail -f 的的命令。 Note You

2016-09-15 14:35:24 1919

原创 Flume NG 编程实践

前言Flume已经自带了几个比较常用的source，但是在特定情况下还是有一些需求不能满足，因此需要特定开发的程序。我们在使用的过程中，遇到了遇到对source和sink开发的情况，因此下面以这两个为例解释一下。我们的需求主要是功能方面的，因此只写了source和sink的程序，没有对channal端没有做开发，直接用了file channal，之前看过美团对flume的使用，感觉对channal的

2016-09-14 22:24:06 1815

原创 Flume NG 基本架构及原理

1 介绍Flume NG是Cloudera提供的一个分布式、可靠、可用的系统，它能够将不同数据源的海量日志数据进行高效收集、聚合、移动，最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG，进行了架构重构，并且现在NG版本完全不兼容原来的OG版本。经过架构重构后，Flume NG更像是一个轻量的小工具，非常简单，容易适应各种方式日志收集，并支持failover和负载均

2016-09-14 21:52:30 9189

木东居士