使用Hive进行OSS数据处理的一个最佳实践

最新推荐文章于 2024-01-27 22:57:21 发布

weixin_34311757

最新推荐文章于 2024-01-27 22:57:21 发布

阅读量1.4k

点赞数 1

文章标签：大数据 python 数据库

原文链接：https://yq.aliyun.com/articles/55974

版权

本文详细介绍了如何使用Hive处理OSS上的非格式化数据，通过E-MapReduce进行计算，并将结果自动写回OSS。文章涵盖创建元数据表、处理原始数据、业务处理和自动化调度的全过程，确保每天都能自动执行Hive分区数据的更新。

摘要由CSDN通过智能技术生成

本文主要介绍如何使用Hive来处理保存在OSS上的数据源，并通过E-MapReduce计算，最终的结果保存在OSS上，并能够每天自动的进行Hive的分区数据的调度

处理条件：

数据源：我们假设在OSS上我们的数据是按照一定的目录格式来保存的，比如时间，按照类似2016/06/01这样的年/月/日的方式存放。而原始数据内容都是一些非格式化的数据，完全没有经过处理。
类似如下的一个格式：

123|service control exceed 100. others content|192.168.0.1|2016-05-31

结果数据：我们需要把每个目录下的数据经过处理，写到OSS上类似2016/06/01的一个结果目录下

处理过程：

创建元数据表

CREATE EXTERNAL TABLE logoss (logcontent string) partitioned by (year string, month string, day string) stored AS textfile location 'oss://akid:aksecret@bucket.oss-cn-hangzhou-internal.aliyuncs.com/path';

通过这一步，我们有了一张Hive的分区表，Hive只是在它的元数据库中记录了这个表的信息，这个时候还没有数据的处理。而数据也还在我们的OSS上躺着。

接着把需要的分区都加入到表中，这里我假设我们有很多个分区

ALTER TABLE logoss ADD PARTITION (year='2

最低0.47元/天解锁文章

weixin_34311757

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫