自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 资源 (3)
  • 收藏
  • 关注

原创 Pig 初识

Pig是什么? Pig是一个脚本语言,可以把它看作一个并行处理大数据集的平台,通过它可以对数据进行group、filter、sort、join等操作,有些类似于SQL,并且允许用户自定义函数来处理数据。它主要运行在Hadoop集群上,可以简化MapReduce程序的开发。 工作机制 那么它是怎么处理数据的?又是怎么在Hadoop集群上运行的呢? Pig有两部分组成:一部分为执行处理数据的语

2015-10-30 17:53:47 544

原创 Sqoop 初识

Sqoop是什么? Sqoop是一个用于在Hadoop和关系型数据库之间高效传输海量数据的工具,它可以把数据从关系型数据库中导入到HDFS中,也可以把HDFS中的数据导出到关系型数据库中。 工作机制 它是怎么在Hadoop和关系型数据库之间传输数据的呢? 先来看下它是怎么把数据导入到HDFS中的,假设关系型数据库为MySQL。 首先,在Sqoop 导入开始之前,Sqoop需要和MySql

2015-10-26 17:59:13 742

原创 Flume 初识

Flume是什么?它是怎么产生的?优缺点? Flume是一个分布式、可靠的、高可用的系统,用于收集、聚合和移动来自多个不同数据源的大量日志数据到一个集中存储中。

2015-10-23 17:40:03 516

原创 Avro 初识

Avro是什么? Apache Avro是一个数据序列化工具,主要用于将类对象或其它结构形式的数据转化为用于传输的通用的格式,如二进制、json、xml等,并且它是跨语言支持的。 为什么会有Avro?   先来看下传统的RPC的情况,在跨平台和跨语言的情况下,模块之间的交互和调用过程如下图: 单纯的看就是序列化和反序列化的问题,发送端将对象序列化为二进制格式的数据,然后接收端反序列

2015-10-19 15:07:26 412

转载 Avro, Protocol Buffers 、Thrift的区别

http://martin.kleppmann.com/2012/12/05/schema-evolution-in-avro-protocol-buffers-thrift.html 当想要数据, 比如对象或其他类型的, 存到文件或是通过网络传输, 需要面对的问题是序列化问题  对于序列化, 当然各个语言都提供相应的包, 比如, Java serialization, R

2015-10-19 15:00:58 1076

快学Scala 中文版 带目录

快学Scala 中文版 带目录

2015-07-28

最近整理的中文停用词列表(1704个)

最近整理的中文停用词列表

2014-08-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除