序列化
文章平均质量分 75
天然呆的技术博客
纯天然的技术小呆呆
展开
-
hadoop中的文件格式
原文链接:Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高[7]。本文介绍Hadoop目前已有的几种文件格式,分析其特点、开销及使用场景。希望加深读者对Hadoop文件格式及其影响性能的因素的理解。Hadoop 中的文件格式转载 2014-05-13 11:31:55 · 687 阅读 · 0 评论 -
Avro总结(RPC/序列化)
Avro(读音类似于[ævrə])是Hadoop的一个子项目,由Hadoop的创始人Doug Cutting(也是Lucene,Nutch等项目的创始人,膜拜)牵头开发,当前最新版本1.3.3。Avro是一个数据序列化系统,设计用于支持大批量数据交换的应用。它的主要特点有:支持二进制序列化方式,可以便捷,快速地处理大量数据;动态语言友好,Avro提供的机制使动态语言可以方便地处理Avro数据。转载 2014-05-13 11:39:14 · 665 阅读 · 0 评论 -
AVRO 规范-Schema的定义和声明
参考自http://avro.apache.org/docs/current/spec.htmlAvro 1.4.1规范定义了Avro序列化系统,它即将成为官方规范,Avro的各种实现方式必须遵循该规范。Schema定义AVRO的Schema是用JSON的格式表示的,Schema可以用JSON String 来命名一个定义的类型JSON 对象,形式如:引用{"t转载 2014-05-21 06:42:16 · 9123 阅读 · 0 评论 -
编译AVRO SCHEMA MVN插件
org.apache.avro avro-maven-plugin 1.7.5-cdh5.1.0 generate-sources schema ${project.ba原创 2014-09-05 10:17:41 · 1246 阅读 · 0 评论