“小喇叭:铛铛铛,ling_nlu部门内部群菁分享会终于开始啦,第一期talk分享者是我们的工程师——涛哥,互联网资深从业者,具有无与伦比的一线开发能力,活跃于服务器端开发,VR和大数据等领域,最近几年扎根于NLP,专注于AI+自适应教育。”
那么,从业数年的干货来喽~
OUTLINE
“•大数据系统部署”
“•基于SPARK数据处理”
“•AZKABAN任务调度平台”
“•其他扩展”
一、大数据系统部署-HADOOP系统部署
1、安装
2、机器配置
3、初始化
二、基于SPARK数据处理
1、单机SPARK搭建
2、RDD基础
•rdd是不可改变数据的抽象;
•rdd是由许多partition(分片)构成,这些分片可以在不同的节点上计算;
•对RDD有两类操作:Transformation和Action
3、DATAFRAME基础
•创建sparksession
•加载数据
•基础操作
•Dataframe和RDD的互操作
4、SPARKSQL
•创建临时表试图
•查询示例一
•查询示例二 一周内没有产生阅读记录的天数
•查询示例三 一段时间内周指标统计
三、AZKABAN任务调度平台
•Azkaban是一个开源的任务调度系统,用于负责任务的调度运行(如数据仓库调度),用以替代linux中的crontab。整体包括:webserver、dbserver、executorserver。
•Azkaban是linkin的开源项目,开发语言为Java。Azkaban是由Linkedin开源的一个批量工作流任务调度器。用于在一个工作流内以一个特定的顺序运行一组工作和流程。
•Azkaban定义了一种KV文件格式来建立任务之间的依赖关系,并提供一个易于使用的web用户界面维护和跟踪你的工作流。
•编译:./gradlewbuild
•安装:./gradlewinstallDist
•单节点启动
四、其他扩展
1、HDFS架构
2、YARN架构
更多请关注我们的公众号LingNlu小圈子~