![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据
文章平均质量分 55
刘坤元
好好读书,天天向上!!!
展开
-
VMware fusion上安装CDH5.X单机版
目前,企业拥有Hadoop大数据处理平台有三种途径: 一、Apache开源版本Hadoop方案 二、Cloudera商业公司进行二次开发的企业版Hadoop(简称CDH) 三、使用AWS的emr或阿里云的MaxCompute等大数据云服务对于中小型公司而言,拥有大数据处理平台的最好途径是购买大数据云服务,其次是使用CDH等商业版Hadoop。而本篇教程是关于在M...原创 2018-07-19 18:10:24 · 727 阅读 · 0 评论 -
利用aws构建数据仓库(一):开通emr
1.对于中、小型公司来说,如何处理公司与日增长的庞大数据是一个非常烦恼的问题。而本系列博客介绍了如何利用aws的大数据产品一步步构建低成本、可扩展以及易维护的数据仓库。2.Amazon EMR简介:Amazon EMR 提供的托管 Hadoop 框架可以让您快速轻松、经济高效地在多个动态可扩展的 Amazon EC2 实例之间处理大量数据。您还可以运行其他常用的分布式框架 (例如 ...原创 2018-08-26 14:08:47 · 2879 阅读 · 0 评论 -
利用aws构建数据仓库(二):创建s3存储桶以存储数据
1.在aws上构建数据仓库与利用开源社区软件构建数据仓库在数据存储上有一个很大的不同点。apache版hadoop在进行计算和存储时,是利用hdfs。而emr的hadoop在存储时,可以利用s3作为存储。emr的hadoop在计算时,中间结果没有直接放入本地硬盘,而是放入了core节点上的hdfs目录。2.Amazon S3简介:专为从任意位置存储和检索任意数量的数据而构建的对象存储,提供...原创 2018-08-26 14:47:42 · 4637 阅读 · 2 评论 -
利用aws构建数据仓库(三):编写hive的udf
1. 在利用EMR的hive构建数据仓库时,需要编写用户自定义函数udf。在实际的经验中,根据EMR的hive版本选择从Maven中央仓库中拉取所需要的jar包这种方式,是存在问题的。采用Maven仓库拉取的jar包编写的udf函数放入hive中,在执行引擎为mapreduce时没有问题,但是一旦将执行引擎换成TEZ,就会报错。所以,我从EMR的hive安装目录中找到hive-...原创 2018-08-26 21:46:50 · 1248 阅读 · 0 评论