大数据
半坡人
每天进步一点点
展开
-
大数据开发-初识hadoop
文章目录什么是hadoop?什么是hadoop?Hadoop是一个由Apache基金会所开发的分布式系统基础架构。Hadoop是一个专为离线和大规模数据分析而设计的。更多信息可大数据论坛参查:https://bbs.csdn.net/forums/hadoop/recommend在hadoop入门学习中,一般需要一主二从,三台tomcat服务器。如下图红框中表示的就是整个hadoop架构体...原创 2019-04-29 20:33:04 · 242 阅读 · 0 评论 -
大数据 Hive之自定义UDF
文章目录1.什么是UDF?2.一个栗子2.1 创建UDF项目 (磨刀):2.2 打包(开始料理):2.3 注册该jar文件2.4 创建临时函数1.什么是UDF? 在Hive中,用户可以自定义一些函数,用于扩展HiveQL的功能,而这类函数UDF(用户自定义函数)。 hive的类SQL预发给...原创 2019-04-30 18:19:28 · 501 阅读 · 0 评论 -
Spark的安装和部署
文章目录1.概述2.安装3.配置系统变量4.进入spark shell1.概述spark官网:http://spark.apache.orgspark是一个围绕速度,易用性和复杂分析架构的大数据处理框架;他有如下优势:运行速度快。spark是基于内存的,是hadoop的是100倍;易用性。可以使用java,scala,python或者其他语言来写;mapReduce,还支持sql查...原创 2019-05-16 00:16:40 · 1009 阅读 · 0 评论