- 博客(7)
- 收藏
- 关注
原创 一次jVM性能调优记录
前言填别人留下来的坑其实挺无奈的,会被搞的特别烦,特别是我这种要填三四个人留下来的坑的时候,满满的都是无奈。幸好的是填坑也可以选择一种更能提升自己的方式来填。这次遇到的一个程序,是一个从kafka消费并且插入mysql的程序,该程序历经三人之手,频频出问题,一直没有被解决。传到现在,症状是这样的:该程序跑个两三天后会莫名其妙的停止消费,不再插入数据了,据说也不报错,进程还在,反正就是不干活了。分析过
2016-09-22 00:17:09 3540
原创 kafka丢数据、重复数据分析
前言填别人的坑again。数据不正常,追到kafka这里了,分析了很久的程序,做一个总结,关于丢数据和重复数据。丢数据先说丢数据。目前遇到一种丢数据的情况。如果auto.commit.enable=true,当consumer fetch了一些数据但还没有完全处理掉的时候,刚好到commit interval出发了提交offset操作,接着consumer crash掉了。这时已经fetch的数据还
2016-09-21 20:42:20 7566
原创 Ubuntu安装Opencv记录(附人脸识别和人眼识别例子)
安装步骤环境Ubuntu 14.04 虚拟机Opencv 3.1.0下载官网:http://opencv.org/国内的一个下载地址:http://blog.csdn.net/yanzi1225627/article/details/47668021安装依赖sudo apt-get install build-essential libgtk2.0-dev libavcodec-dev
2016-09-18 11:28:14 6019 2
原创 hadoop清空回收站
直接删除目录(不放入回收站)hdfs dfs -rm -skipTrash /path/to/file/you/want/to/remove/permanently如果不加-skipTrash,删除的目录会放入/user/hdfs/.Trash中。有专门的配置项来指定什么时候清空回收站。清空回收站hdfs dfs -expunge This should give you output simi
2016-09-18 11:11:45 27002
原创 Flume NG 部署实践
前言由于数据量不是特别大,因此我们在使用Flume的时候没有使用分区,基本上就是在业务端的web server上部署了一个agent,然后输出到hdfs上。部署kafka 数据源可以参考我的另一篇文章,里面讲了我在工作中遇到的定制的kafka source。tail 数据源flume ng里面可以使用Exec Source来代替。其实就相当于执行了一个tail -f 的的命令。 Note You
2016-09-15 14:35:24 1919
原创 Flume NG 编程实践
前言Flume已经自带了几个比较常用的source,但是在特定情况下还是有一些需求不能满足,因此需要特定开发的程序。我们在使用的过程中,遇到了遇到对source和sink开发的情况,因此下面以这两个为例解释一下。我们的需求主要是功能方面的,因此只写了source和sink的程序,没有对channal端没有做开发,直接用了file channal,之前看过美团对flume的使用,感觉对channal的
2016-09-14 22:24:06 1815
原创 Flume NG 基本架构及原理
1 介绍Flume NG是Cloudera提供的一个分布式、可靠、可用的系统,它能够将不同数据源的海量日志数据进行高效收集、聚合、移动,最后存储到一个中心化数据存储系统中。由原来的Flume OG到现在的Flume NG,进行了架构重构,并且现在NG版本完全不兼容原来的OG版本。经过架构重构后,Flume NG更像是一个轻量的小工具,非常简单,容易适应各种方式日志收集,并支持failover和负载均
2016-09-14 21:52:30 9189
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人