2015年10月_qiruiduni

12月 11月 10月 09月 08月 07月 06月 04月 03月 02月

原创 Pig 初识

Pig是什么？ Pig是一个脚本语言，可以把它看作一个并行处理大数据集的平台，通过它可以对数据进行group、filter、sort、join等操作，有些类似于SQL，并且允许用户自定义函数来处理数据。它主要运行在Hadoop集群上，可以简化MapReduce程序的开发。工作机制那么它是怎么处理数据的？又是怎么在Hadoop集群上运行的呢？ Pig有两部分组成：一部分为执行处理数据的语

2015-10-30 17:53:47 544

原创 Sqoop 初识

Sqoop是什么？ Sqoop是一个用于在Hadoop和关系型数据库之间高效传输海量数据的工具，它可以把数据从关系型数据库中导入到HDFS中，也可以把HDFS中的数据导出到关系型数据库中。工作机制它是怎么在Hadoop和关系型数据库之间传输数据的呢？先来看下它是怎么把数据导入到HDFS中的，假设关系型数据库为MySQL。首先，在Sqoop 导入开始之前，Sqoop需要和MySql

2015-10-26 17:59:13 742

原创 Flume 初识

Flume是什么？它是怎么产生的？优缺点？ Flume是一个分布式、可靠的、高可用的系统，用于收集、聚合和移动来自多个不同数据源的大量日志数据到一个集中存储中。

2015-10-23 17:40:03 516

原创 Avro 初识

Avro是什么？ Apache Avro是一个数据序列化工具，主要用于将类对象或其它结构形式的数据转化为用于传输的通用的格式，如二进制、json、xml等，并且它是跨语言支持的。为什么会有Avro? 先来看下传统的RPC的情况，在跨平台和跨语言的情况下，模块之间的交互和调用过程如下图：单纯的看就是序列化和反序列化的问题，发送端将对象序列化为二进制格式的数据，然后接收端反序列

2015-10-19 15:07:26 412

转载 Avro, Protocol Buffers 、Thrift的区别

http://martin.kleppmann.com/2012/12/05/schema-evolution-in-avro-protocol-buffers-thrift.html 当想要数据, 比如对象或其他类型的, 存到文件或是通过网络传输, 需要面对的问题是序列化问题对于序列化, 当然各个语言都提供相应的包, 比如, Java serialization, R

2015-10-19 15:00:58 1076

快学Scala 中文版带目录

2015-07-28

最近整理的中文停用词列表（1704个）

最近整理的中文停用词列表

2014-08-19

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人