![](https://img-blog.csdnimg.cn/20201014180756923.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
BigData
文章平均质量分 83
远有青山
山外青山楼外楼
展开
-
spark学习-16-Spark的Map()和FlatMap()函数使用
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。本文链接:https://blog.csdn.net/qq_21383435/article/details/774776811。先看图解释:map函数和faltMap()函数都会像是工厂一样,对你每个元素都做处理map会将每一条输入映射为一个新对象。{苹果,梨子}.map(去皮) ...转载 2019-10-14 11:58:24 · 1770 阅读 · 1 评论 -
hive常见优化问题汇总
一、总体思想http://blog.csdn.net/u011750989/article/details/120243011、让服务器尽可能的多做事情,榨干服务器资源,以最高系统吞吐量为目标再好的硬件没有充分利用起来,都是白扯淡。比如:(1) 启动一次job尽可能的多做事情,一个job能完成的事情,不要两个job来做通常来说前面的任务启动可以稍带一起做的事情就一起做了...转载 2019-09-07 00:07:09 · 521 阅读 · 0 评论 -
Spark原理
一、Spark原理 1、Spark的运行原理i、分布式Ii、主要基于内存(少数情况基于磁盘)Iii、迭代式计算2、Spark 计算模式 VS MapReduce 计算模式对比 Mr这种计算模型比较固定,只有两种阶段,map阶段和reduce阶段,两个阶段结束 后,任务就结束了,这意味着我们的操作很有限,只能在map阶段和reduce阶段, 也同时意味着可能需要...转载 2018-07-03 11:23:11 · 810 阅读 · 0 评论 -
MongoDB + Spark: 完整的大数据解决方案
http://blog.csdn.net/u010385646/article/details/52712605Spark介绍按照官方的定义,Spark 是一个通用,快速,适用于大规模数据的处理引擎。通用性:我们可以使用Spark SQL来执行常规分析, Spark Streaming 来流数据处理, 以及用Mlib来执行机器学习等。Java,python,scala及R语言的支持也是其通用性的表...转载 2018-03-20 16:32:03 · 1709 阅读 · 0 评论 -
最详细大数据项目落地路线图实践总结
最详细大数据项目落地路线图实践总结 2017-01-14 16:38大数据今天,来谈一谈“大数据项目如何落地?”这个话题。从事过多个大数据项目的规划方案及项目落地工作,在这里与大家分享一些心得,主要是关于大数据项目如何成功落地并取得预期目标,也可以说这些是实践出来的观点。对于一个大数据应用项目/产品的落地,可以大致总结为五大步骤阶段:数据规划、数据治理、数据应用、迭代实转载 2018-01-07 00:32:16 · 15283 阅读 · 1 评论 -
Hive UDF开发指南
https://www.cnblogs.com/hd-zg/p/5947468.html编写Apache Hive用户自定义函数(UDF)有两个不同的接口,一个非常简单,另一个...就相对复杂点。如果你的函数读和返回都是基础数据类型(Hadoop&Hive 基本writable类型,如Text,IntWritable,LongWriable,DoubleWrit转载 2018-01-12 17:10:03 · 866 阅读 · 0 评论 -
【Hive七】Hive用户自定义聚合函数(UDAF)
用户自定义聚合函数,用户提供的多个入参通过聚合计算(求和、求最大值、求最小值)得到一个聚合计算结果的函数。问题:UDF也可以提供输入多个参数然后输出一个结果的运算,比如加法运算add(3,5),add这个UDF需要实现UDF的evaluate方法,那么UDF和UDAF的实质分别究竟是什么? Java代码 Double evaluate(Double a, Doub转载 2018-01-11 18:05:43 · 1467 阅读 · 0 评论 -
数据预处理_数据清理
1、概述实际的数据库极易受噪声、缺失值和不一致数据的侵扰,因为数据库太大,并且多半来自多个异种数据源。低质量的数据将会导致低质量的挖掘结果。有大量的数据预处理技术:- - 数据清理:可以用来清楚数据中的噪声,纠正不一致。 - - 数据集成:将数据由多个数据源合并成一个一致的数据存储,如数据仓库。 - - 数据归约:可以通过如聚集、删除冗余特征或聚类来降低数据的规模。 - - 数转载 2018-01-11 15:40:53 · 31642 阅读 · 1 评论 -
ETL处理过程介绍
为提高数据仓库数据质量,需要在ETL过程进行数据清洗。本文首先提出了ETL过程进行数据清洗应解决的问题,然后通过分析现有的ETL处理方式说明应采用数据库中的ETL处理,介绍了数据质量和数据清洗的原理并提出了数据清洗在ETL中的应用模型,最后通过实例说明数据清洗的具体实现。 1 前言ETL即数据抽取(Extract)、转换(Transform)、装载(Load)的过程。转载 2018-01-11 15:15:34 · 2369 阅读 · 0 评论 -
ETL工具总结
ETL工具总结ETL的考虑 做数据仓库系统,ETL是关键的一环。说大了,ETL是数据整合解决方案,说小了,就是倒数据的工具。回忆一下工作这么些年来,处理数据迁移、转换的工作倒还真的不少。但是那些工作基本上是一次性工作或者很小数据量,使用access、DTS或是自己编个小程序搞定。可是在数据仓库系统中,ETL上升到了一定的理论高度,和原来小打小闹的工具使转载 2018-01-11 11:47:59 · 763 阅读 · 0 评论 -
ETL介绍与ETL工具比较
ETL介绍与ETL工具比较转载 2017年03月04日 16:10:30标签:ETL本文转载自:http://blog.csdn.net/u013412535/article/details/43462537ETL,是英文 Extract-Transform-Load 的缩写,用来描述将数据从来源端经过萃取(extract)、转置转载 2018-01-11 10:08:48 · 953 阅读 · 0 评论