spark
文章平均质量分 80
星星之火,可以燎原!
菜鸟周星星
大数据开发攻城狮。更多学习和面试资料尽在微信公众号:Hadoop大数据开发
展开
-
大数据实战之数仓项目(二)后续架构构想及近期安排
大家好,今天手画了一幅后续架构构想【如下图】现在行业内数仓架构比较流行的即是kimball模型从第一步数据抽取(业务数据库【binlog增量同步/cdc、埋点日志】、外部数据【网络爬虫】、文件类数据【csv、json文件等】)抽取采集到介质hdfs/hive中存储起来到第二步ETL层(Extract抽取、Transform转换、Load装载),在这一层会进行数据汇聚、集成、清洗、转换、过滤,最终落入到数仓的ods(数据贴源层)【operator data store】..原创 2021-06-25 23:51:28 · 205 阅读 · 0 评论 -
面试集锦(七)20210227_大数据面试题
原创 2021-02-27 20:21:08 · 149 阅读 · 1 评论 -
面试集锦(六)20210225_大数据面试题
今日内容一道sql题目训练 两道spark面试题sql题目训练延续上一篇数据店铺id,时间,电子类,服装类,食品类sid,dt,dz,fz,spa,2020-01,3000,4000,5000a,2020-02,4000,9800,5000a,2020-03,3000,3333,6555a,2020-04,3000,4444,5000a,2020-05,4444,4000,4546a,2020-06,3000,4000,2888a,2020-07,2333,1879,.原创 2021-02-25 20:50:19 · 159 阅读 · 0 评论 -
sparkSQL整合hive
若是开发要用到之前的hive的元数据,而又不想在hive里面编程,可以选择整合spark,在spark中写hive sql整合步骤:1.安装MySQL并创建一个普通用户,并且授权 CREATE USER 'hive'@'%' IDENTIFIED BY '123456'; GRANT ALL PRIVILEGES ON hivedb.* TO 'hive'@'%' IDENTIFIED BY '123456' WITH GRANT OPTION; FLUSH PRIV...原创 2021-01-07 17:29:19 · 329 阅读 · 0 评论 -
SQL经典面试案例之SparkSQL和DSL风格编程实践
饱受RDD编程的折磨,如同前期编写MR程序时的煎熬,而今遇上spark sql和DSL编程,才知遇上了真爱,真宛如斯人若彩虹,遇上方知有。SQL常见面试场景中无非逐行运算、分组聚合运算、划窗口运算三种,熟练掌握了这三种,相信在各个大数据的SQL面试当中,都不会有太大的问题。连续活跃用户案例有数据如下:uid,dtguid01,2018-02-28guid01,2018-03-01guid01,2018-03-01guid01,2018-03-02guid01,2018-03.原创 2021-01-05 23:43:31 · 544 阅读 · 0 评论 -
spark快速入门(三)-------spark部署及运行模式
spark支持多种部署方案,包括spark自带的standalone资源调度模式(StandAlone);运行在hadoop的yarn资源调度框架中(SparkOnYARN);local本地模式;可以运行在Mesos资源调度框架上;还可以运行在k8s(Kubernetes)上。今天对前三个(standalone、sparkonyarn、local进行阐述)local模式1)运行在本地,利用本地资源进行计算2)一般进行测试时会使用本地模式3)使用方式I:使用idea 代码中设置mas.原创 2021-01-02 22:56:37 · 416 阅读 · 0 评论 -
spark快速入门(二)-------spark粗略流程简述及常见名词解释
学如逆水行舟,不进则退。spark流程简述(1)有算子触发Action,Driver端和hdfs的namenode进行通信,询问元数据信息。根据元数据信息 及相应切分规则切分任务切片,计划分区(task),并向Master申请相应的资源(2)Master收到Driver的交互信息,并根据自己所管理的Worker节点,决定在哪个Worker上启动Executor(手残上面图中executor写掉了个e)(3)在Worker启动了本次应用所需要的Executor之后,Executor..原创 2021-01-01 19:55:22 · 180 阅读 · 0 评论 -
spark快速入门(一)-------spark概述及安装配置
本篇内容 spark简介及概述 spark集群安装及配置 spark中常见术语解释 spark常见提交任务方式 常见算子代码实践及解析 spark简介及概述Spark是一种快速、通用、可扩展的大数据分析引擎。特点:1)快速高效之前学习的hadoop中的MapReduce作为第一代分布式大数据计算引擎,在设计的时候,受当时计算机硬件条件所限(内存、磁盘、cpu等),为了能够计算海量数据,需要将中间结果保存到HDFS中,那么就要频繁读写H原创 2020-12-24 21:15:52 · 266 阅读 · 3 评论