- 博客(3)
- 收藏
- 关注
原创 利用aws构建数据仓库(三):编写hive的udf
1. 在利用EMR的hive构建数据仓库时,需要编写用户自定义函数udf。在实际的经验中,根据EMR的hive版本选择从Maven中央仓库中拉取所需要的jar包这种方式,是存在问题的。采用Maven仓库拉取的jar包编写的udf函数放入hive中,在执行引擎为mapreduce时没有问题,但是一旦将执行引擎换成TEZ,就会报错。所以,我从EMR的hive安装目录中找到hive-...
2018-08-26 21:46:50 1281
原创 利用aws构建数据仓库(二):创建s3存储桶以存储数据
1.在aws上构建数据仓库与利用开源社区软件构建数据仓库在数据存储上有一个很大的不同点。apache版hadoop在进行计算和存储时,是利用hdfs。而emr的hadoop在存储时,可以利用s3作为存储。emr的hadoop在计算时,中间结果没有直接放入本地硬盘,而是放入了core节点上的hdfs目录。2.Amazon S3简介:专为从任意位置存储和检索任意数量的数据而构建的对象存储,提供...
2018-08-26 14:47:42 4696 2
原创 利用aws构建数据仓库(一):开通emr
1.对于中、小型公司来说,如何处理公司与日增长的庞大数据是一个非常烦恼的问题。而本系列博客介绍了如何利用aws的大数据产品一步步构建低成本、可扩展以及易维护的数据仓库。2.Amazon EMR简介:Amazon EMR 提供的托管 Hadoop 框架可以让您快速轻松、经济高效地在多个动态可扩展的 Amazon EC2 实例之间处理大量数据。您还可以运行其他常用的分布式框架 (例如 ...
2018-08-26 14:08:47 2921
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人