Spark
会编程的海贼王
这个作者很懒,什么都没留下…
展开
-
大数据学习之 spark写入数据到kafka中
目录 1. kafka 环境的搭建请参考: 2. 准备KafkaSink 3.实现代码: 4 总结: 1. kafka 环境的搭建请参考: https://blog.csdn.net/weixin_37835915/article/details/103786157 2. 准备KafkaSink package com.spark.self import java.ut...原创 2020-01-02 15:58:11 · 1245 阅读 · 0 评论 -
大数据学习之 使用SparkStreaming实时消费kafka数据
目录 第一步:准备zookeeper环境 第二步:准备kafka环境 第三步:开发代码 第四步:启动SparkStreaming 程序 第五步:生产数据,如下所示: 总结: 第一步:准备zookeeper环境 (1)下载 zookeeper-3.4.14.tar.gz ,解压,把conf 文件夹下面的 zoo.templet.cfg 改成zoo.cfg (2)启动zooke...原创 2019-12-31 17:25:09 · 906 阅读 · 0 评论 -
大数据学习之 Hive Sql篇
1. 准备数据: score.csv数据如下: 01,01,80 01,02,90 01,03,99 02,01,70 02,02,60 02,03,80 03,01,80 03,02,80 03,03,80 04,01,50 04,02,30 04,03,20 05,01,76 05,02,87 06,01,31 06,03,34 07,02,89 07,03,98 student.cs...原创 2019-12-24 17:48:16 · 333 阅读 · 0 评论 -
大数据学习之 SparkSql + Hive 篇
1. 关于SparkSql的相关用法请参考 https://blog.csdn.net/weixin_37835915/article/details/103531043 https://blog.csdn.net/weixin_37835915/article/details/103599521 2. 关于hive的相关知识和用法请参考 https://blog.csdn.net/we...原创 2019-12-19 16:50:34 · 605 阅读 · 0 评论 -
大数据学习之 sparkSql UDF(自定义函数)
注意:需要引入spark-hive的依赖 目录 第一部分:自定义函数(常用的一些窗体函数) 第二部分:自定义聚合函数(弱类型) 第三部分:自定义聚合函数(强类型) package com.spark.self import org.apache.spark.sql.SparkSession object UdfDemo { def main(args: Array[...原创 2019-12-18 16:03:39 · 360 阅读 · 0 评论 -
大数据学习之Spark-SQL
第一步:准备json文件,和txt文件内容如下 json 文件: {"name":"Michael"}, {"name":"Andy", "age":30}, {"name":"Justin", "age":19} txt文件: Michael, 29 Andy, 30 Justin, 19 第二步: 引入spark-sql 依赖 <dependency> ...原创 2019-12-13 17:32:23 · 217 阅读 · 0 评论 -
spark jieba 分词 用cluster模式,提交到yarn上
需要在pom 文件中引入 jieba的依赖 <dependency> <groupId>com.huaban</groupId> <artifactId>jieba-analysis</artifactId> <version>1.0.2</version> </dependency> ya...原创 2019-11-20 16:10:02 · 518 阅读 · 0 评论 -
大数据学习之 Spark篇
1.spark 是什么? 基于内存的分布式并行的计算框架(还有 mapReduce, storm(目前用的少)) spark 的吞吐量更大,但是有秒级别的延迟(storm 是毫秒级的延迟,Flink 也是毫秒级的延迟) executor : 是一个进程,装载在container里运行 ,executor 分配的内存是一个G ---------------------------------...原创 2019-11-20 14:31:10 · 532 阅读 · 0 评论