Spark
文章平均质量分 80
3分钟秒懂大数据
互联网大厂工作人员、专注于 Flink、Spark、ElasticSearch、Clickhouse、Kafka、Hadoop、Hive、Hbase 等技术组件的研究和分享,提供实时数仓、离线数仓、数据湖等最前沿的技术博客!
展开
-
Spark 大厂面试题
spark大厂高频考点Spark on Yarn 模式有哪些优点原创 2023-07-25 19:46:32 · 450 阅读 · 0 评论 -
文章硬不硬核,你说了算,土哥怒肝大数据学习路线一条龙!
前言大家好,我是土哥。随着读者数量的不断增加,从8月底到10月中旬,3分钟秒懂大数据 公众号粉丝数已经突破7200+。短短几个月,看着越来越多的读者通过我写的文章而关注到该公众号,我好开心,同时也诚惶诚恐,害怕无法持续输出高质量文章,让读者失望。 但我知道,只有写出让读者心动的文章,才能得其心,土哥会好好加油,为大家持续输出精品文章的。有读者问我,对于大数据小白或者跨行业者,应该如何学习大数据呢?或者说有什么推荐的书籍或者网站?其实这个我很有心得啦,因为我研究生学的就是大数据与人工智原创 2021-10-19 14:46:13 · 1425 阅读 · 1 评论 -
Spark-SQL绑定原理深入分析
上一篇文章Spark-SQL解析原来如此简单讲到了Spark-SQL通过Antlr4生成未解析的LogicalPlan。此时的LogicalPlan是Unresolve的,需要通过Catalog来绑定UnresolvedRelation 和UnresolvedAttribute,生成解析后的LogicalPlan。在Spark-SQL中,Catalog主要用于各种函数资源信息和元数据信息(数据库、数据表、数据视图、数据分区与函数等)的统一管理。Spark-SQL中的Catalog体系...原创 2021-08-14 11:01:20 · 1117 阅读 · 1 评论 -
Spark-SQL解析原来如此简单
如下图所示,Spark-SQL解析总体分为以下几个步骤: 解析(Parser) 绑定(Analysis) 优化(Optimization) 执行(Physical) 生成RDD(RDDs) 接下来,我们先介绍解析部分,对于绑定、逻辑计划的优化、物理执行计划、生成RDD后面再专门介绍。Antlr4最新的Spark-Sql解析模块为spark-catalyst_2.11,通过Antlr4(Another Tool for Language R原创 2021-07-12 13:54:41 · 1246 阅读 · 0 评论 -
面试视频
中华石杉Java面试突击第一季:(首推)链接:https://pan.baidu.com/s/1EKi9DkkiEFZRqQM0R_PNsA提取码:buhaElasticsearch顶尖高手系列课程(基础篇+高手篇)(从零开始精通分布式搜索ElasticSearch)链接:https://pan.baidu.com/s/1KEaace9WzOTdeuD5y_yFMg提取码:...原创 2019-06-14 15:50:35 · 506 阅读 · 0 评论 -
spark Streaming整合Kafka完成网站点击流实时统计
spark Streaming整合Kafka完成网站点击流实时统计安装并配置zookeeper 安装教程如下:https://blog.csdn.net/weixin_38201936/article/details/88821559 安装并配置Kafka 安装教程如下:https://blog.csdn.net/weixin_38201936/article/de...原创 2019-05-17 21:31:10 · 585 阅读 · 0 评论 -
Spark Streaming简介
什么是Spark Streaming? Spark Streaming类似于Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming有高吞吐量和容错能力强等特点。Spark Streaming支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ和简单的TCP套接字等等。数据输入后可以用Spark的高度抽象原语如:...原创 2019-05-17 21:14:26 · 219 阅读 · 0 评论 -
spark-sql 结合hive
执行以下操作时必须先安装好hive 和spark1 . hive 安装教程:https://blog.csdn.net/weixin_38201936/article/details/885980082 . spark 安装教程:https://blog.csdn.net/weixin_38201936/article/details/85233263上面步骤执行完成后执行下面操作...原创 2019-05-16 21:49:08 · 227 阅读 · 0 评论 -
SparkStreaming+kafka+flume+hbase日志实时流处理项目
1.项目背景:互联网访问日志概述为什么要记录访问日志的行为呢? 通过日志我们可以得到网站页面的访问量,网站的黏性,推荐用户行为分析,是指在获得网站访问量基本数据的情况下,对有关数据进行统计、分析,从中发现用户访问网站的规律,并将这些规律与网络营销策略等相结合,从而发现目前网络营销活动中可能存在的问题,并为进一步修正或重新制定网络营销策略提供依据。2.项目需求:统计网...原创 2019-05-20 11:24:41 · 2175 阅读 · 4 评论 -
Spark-RDD简介
弹性分布式数据集(RDD)Spark围绕弹性分布式数据集(RDD)的概念展开,RDD是一个可以并行操作的容错的容错集合。创建RDD有两种方法:并行化驱动程序中的现有集合. 或引用外部存储系统中的数据集. 例如共享文件系统,HDFS,HBase或提供Hadoop InputFormat的任何数据源。通过scala来创建并行化集合1.并行集合通过调用创建SparkC...原创 2019-05-09 17:02:49 · 310 阅读 · 0 评论 -
Spark集群搭建及配置
1. Spark集群安装1.1安装1.1.1机器部署 准备四台Linux服务器,安装好JDK1.81.1.2下载Spark安装包 进入官网http://spark.apache.org1.1.3上传安装包 将下载好的 spark-2.4.0-bin-hadoop2.6.tgz 压缩包上传到linux 虚拟机上百度云网盘:...原创 2018-12-24 15:50:04 · 642 阅读 · 0 评论