- 博客(4)
- 资源 (30)
- 收藏
- 关注
原创 hadoop 四种压缩格式
1 gzip压缩优点:压缩率比较高,而且压缩/解压速度也比较快;hadoop本身支持,在应用中处理gzip格式的文件就和直接处理文本一样;有hadoop native库;大部分linux系统都自带gzip命令,使用方便。缺点:不支持split。应用场景:当每个文件压缩之后在130M以内的(1个块大小内),都可以考虑用gzip压缩格式。譬如说一天或者一个小时的日志压缩成一个gzip 文件...
2016-09-22 15:39:41 9220 1
转载 flume 性能优化
如图1所示,一个flume-ng agent主要包括source,channel和sink三部分,三部分运行在Java JVM中,JVM一般运行在linux'操作系统上,因此,这些因素都可能影响最终的性能。flume-ng性能优化与架构设计,简单来讲,也主要包括以上部分。1, 主键的参数设计1.1 source的配置有时候不需要每台主机均安装flume agent,可以和s
2016-09-22 14:26:39 3050
转载 开源日志系统比较:scribe、chukwa、kafka、flume
1. 背景介绍许多公司的平台每天会产生大量的日志(一般为流式数据,如,搜索引擎的pv,查询等),处理这些日志需要特定的日志系统,一般而言,这些系统需要具有以下特征:(1) 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦;(2) 支持近实时的在线分析系统和类似于Hadoop之类的离线分析系统;(3) 具有高可扩展性。即:当数据量增加时,可以通过增加节点进行水
2016-09-20 14:54:42 4172
原创 Spark的三种分布式部署方式
目前Apache Spark支持三种分布式部署方式,分别是standalone、spark on mesos和 spark on YARN,其中,第一种类似于MapReduce 1.0所采用的模式,内部实现了容错性和资源管理,后两种则是未来发展的趋势,部分容错性和资源管理交由统一的资源管理系统完成:让Spark运行在一个通用的资源管理系统之上,这样可以与其他计算框架,比如MapReduce
2016-09-18 19:17:22 6611
prob工具和messages_zh_CN.properties
2014-04-22
JFreeChart用到的三个JAR
2013-07-10
Firefox, IE5, IE5.5, IE6, IE7, IE8多种浏览器兼容的问题
2011-01-20
动态检索,同时实现拼音检索的三个js 文件:control.js,pinyin.js,pinyincontrol.js
2011-01-17
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人