Pig
Mike_H
这个作者很懒,什么都没留下…
展开
-
Avro技术应用_4. 在 Pig 中实现对 Avro 数据的读写
Github 源码:https://github.com/Hanmourang原创 2015-11-29 18:23:38 · 941 阅读 · 0 评论 -
Pig_7. 常用的数据分析方法 -- 待完善
Agenda for this Topic :1. 大数据分析的维度2. 大数据抽样分析时注意事项3. 为什么使用 Pig 做数据分析4. 数据类型推理模式5. 基本统计分析模式6. 模式匹配7. 字符串分析8. 非结构化文本分析原创 2015-12-04 23:47:14 · 531 阅读 · 0 评论 -
Pig_6. 数据摄取 & 输出 -- Protocel Buffer -- 待完善(腾讯 TDW 项目)
本课题主要涉及以下几点: 1. 企业中常见的数据类型2. 多结构化的数据的摄取/输出Apache Log formatsCustom log formatImage format3. NoSQL 数据的摄取/输出MongoDB HBase4. 结构化数据的摄取/输出Hive RCFileHive HCatalog原创 2015-12-04 23:37:49 · 584 阅读 · 0 评论 -
Pig_6. 数据摄取 & 输出 -- 半结构化数据 -- 待完善
本课题主要涉及以下几点: 1. 企业中常见的数据类型2. 多结构化的数据的摄取/输出Apache Log formatsCustom log formatImage format3. NoSQL 数据的摄取/输出MongoDB HBase4. 结构化数据的摄取/输出Hive RCFileHive HCatalog原创 2015-12-04 23:35:16 · 453 阅读 · 0 评论 -
Pig_6. 数据摄取 & 输出 -- NoSQL 数据 -- 待完善
先完善列表结构,会后续填充内容原创 2015-12-04 23:30:18 · 379 阅读 · 0 评论 -
Pig _8. 数据验证 & 清理 -- 待完善
本课题主要涉及以下几点: 1. 为什么选择 Pig 来做数据验证和清理2. 约束验证和清理设计模式3. 正则表达式验证和清理模式4. 垃圾数据验证和清理模式5. 非结构化文本数据验证和清理模式原创 2015-12-04 23:48:05 · 447 阅读 · 0 评论 -
Pig_6. 数据摄取 & 输出 -- JSON, Avro, Parquet -- 待完善
本课题主要涉及以下几点: 1. 企业中常见的数据类型2. 多结构化的数据的摄取/输出Apache Log formatsCustom log formatImage format3. NoSQL 数据的摄取/输出MongoDB HBase4. 结构化数据的摄取/输出Hive RCFileHive HCatalog5. 半结构化原创 2015-12-04 23:36:32 · 530 阅读 · 0 评论 -
Pig_10. 常见的数据简化模式 -- 待完善
目前只是先完善目录结构,内容会后续填充原创 2015-12-04 23:57:02 · 360 阅读 · 0 评论 -
Pig_6. 数据摄取 & 输出 -- 结构化数据 -- 待完善
先完善列表结构,会后续填充内容原创 2015-12-04 23:31:12 · 353 阅读 · 0 评论 -
Pig_9. 数据转换 -- 待完善
本课题主要涉及以下几点: 1. 结构化数据转换为分层数据2. 数据归一化3. 数据集成Inner JoinLeft outer JoinRight outer JoinFull outer JoinCartesian JoinReduce-side JoinReplicated Join4. 聚合5. 数据泛化-- data generalization原创 2015-12-04 23:55:13 · 414 阅读 · 0 评论 -
Pig_6. 数据摄取 & 输出 -- 多结构化数据 -- 待完善
先完善列表结构,会后续填充内容原创 2015-12-04 23:26:37 · 324 阅读 · 0 评论 -
Pig_5. UDF & UDAF -- 待完善
先完善列表结构,会后续填充内容原创 2015-12-03 15:53:10 · 364 阅读 · 0 评论 -
Pig_4. Pig Latin 脚本开发及调试 -- 待完善
先完善列表结构,会后续填充内容原创 2015-12-03 15:51:04 · 457 阅读 · 0 评论 -
Pig_1. Pig 基础知识 -- 待完善
先完善列表结构,会后续填充内容原创 2015-12-03 15:43:53 · 342 阅读 · 0 评论 -
Pig_3. Pig Latin 命令及应用 -- 待完善
先完善列表结构,会后续填充内容原创 2015-12-03 15:46:43 · 351 阅读 · 0 评论 -
Pig_2. Pig Latin 数据类型 -- 待完善
先完善列表结构,会后续填充内容原创 2015-12-03 15:45:23 · 393 阅读 · 0 评论 -
Parquet_1. 使用谓词下推和映射来优化 Job
Github 源码:https://github.com/Hanmourang原创 2015-12-03 02:15:22 · 2699 阅读 · 0 评论 -
Parquet_3. 在 Impala, Hive, Pig, MR中使用 Parquet File -- 待完善
本节将跟大家讨论一下如何在 Impala,Hive,Pig,MapReduce 中使用列式存储格式的文件具体内容将会在后续进行完善,敬请期待原创 2015-12-06 23:39:26 · 1140 阅读 · 0 评论