大数据搭建平台

 

        “小喇叭:铛铛铛,ling_nlu部门内部群菁分享会终于开始啦,第一期talk分享者是我们的工程师——涛哥,互联网资深从业者,具有无与伦比的一线开发能力,活跃于服务器端开发,VR和大数据等领域,最近几年扎根于NLP,专注于AI+自适应教育。

那么,从业数年的干货来喽~

                                                         OUTLINE

                                               •大数据系统部署

                                              •基于SPARK数据处理

                                              •AZKABAN任务调度平台

                                              •其他扩展

 

一、大数据系统部署-HADOOP系统部署

1、安装

 

2、机器配置

 

 

 

3、初始化

 

二、基于SPARK数据处理

1、单机SPARK搭建

 

2、RDD基础

•rdd是不可改变数据的抽象;

•rdd是由许多partition(分片)构成,这些分片可以在不同的节点上计算;

•对RDD有两类操作:Transformation和Action

 

 

 

 

3、DATAFRAME基础

•创建sparksession

 

•加载数据

•基础操作

•Dataframe和RDD的互操作

 

4、SPARKSQL

•创建临时表试图

•查询示例一

•查询示例二    一周内没有产生阅读记录的天数

•查询示例三    一段时间内周指标统计

三、AZKABAN任务调度平台

•Azkaban是一个开源的任务调度系统,用于负责任务的调度运行(如数据仓库调度),用以替代linux中的crontab。整体包括:webserver、dbserver、executorserver。

•Azkaban是linkin的开源项目,开发语言为Java。Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。

•Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。

•编译:./gradlewbuild

•安装:./gradlewinstallDist

•单节点启动

 

四、其他扩展

1、HDFS架构

2、YARN架构

 

                                     

 

 

更多请关注我们的公众号LingNlu小圈子~

 

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值