大数据搭建平台

最新推荐文章于 2022-12-28 17:28:57 发布

Wu 绪青

最新推荐文章于 2022-12-28 17:28:57 发布

阅读量333

点赞数

分类专栏：涛哥文章标签：大数据 SPARK HADOOP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43099081/article/details/90297734

版权

涛哥专栏收录该内容

1 篇文章 0 订阅

订阅专栏

“小喇叭：铛铛铛，ling_nlu部门内部群菁分享会终于开始啦，第一期talk分享者是我们的工程师——涛哥，互联网资深从业者，具有无与伦比的一线开发能力，活跃于服务器端开发，VR和大数据等领域，最近几年扎根于NLP，专注于AI+自适应教育。”

那么，从业数年的干货来喽~

OUTLINE

“•大数据系统部署”

“•基于SPARK数据处理”

“•AZKABAN任务调度平台”

“•其他扩展”

一、大数据系统部署-HADOOP系统部署

1、安装

2、机器配置

3、初始化

二、基于SPARK数据处理

1、单机SPARK搭建

2、RDD基础

•rdd是不可改变数据的抽象;

•rdd是由许多partition（分片）构成，这些分片可以在不同的节点上计算;

•对RDD有两类操作:Transformation和Action

3、DATAFRAME基础

•创建sparksession

•加载数据

•基础操作

•Dataframe和RDD的互操作

4、SPARKSQL

•创建临时表试图

•查询示例一

•查询示例二一周内没有产生阅读记录的天数

•查询示例三一段时间内周指标统计

三、AZKABAN任务调度平台

•Azkaban是一个开源的任务调度系统，用于负责任务的调度运行（如数据仓库调度），用以替代linux中的crontab。整体包括：webserver、dbserver、executorserver。

•Azkaban是linkin的开源项目，开发语言为Java。Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。

•Azkaban定义了一种KV文件格式来建立任务之间的依赖关系，并提供一个易于使用的web用户界面维护和跟踪你的工作流。

•编译：./gradlewbuild

•安装：./gradlewinstallDist

•单节点启动

四、其他扩展

1、HDFS架构

2、YARN架构

更多请关注我们的公众号LingNlu小圈子~

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

Wu 绪青 CSDN认证博客专家 CSDN认证企业博客

码龄6年

1: 原创

149万+: 周排名

193万+: 总排名

332: 访问

: 等级

14: 积分

0: 粉丝

0: 获赞

0: 评论

1: 收藏

私信

关注

热门文章

大数据搭建平台 333

分类专栏

涛哥 1篇

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。