大数据
会编程的海贼王
这个作者很懒,什么都没留下…
展开
-
大数据学习之 Flink
目录 一:简介 二:为什么选择Flink 三:哪些行业需要 四:Flink的特点 五:与sparkStreaming的区别 六:初步开发 七:Flink配置说明 八:环境 九:运行组件 一:简介 Flink 是一个框架和分布式得计算引擎,对于无界和有界数据流进行状态计算 二:为什么选择Flink 流数据更真实地反应了我们得生活方式 传统得数据架构是基于有限数...原创 2020-01-17 16:20:17 · 608 阅读 · 0 评论 -
大数据学习之 sparkSql UDF(自定义函数)
注意:需要引入spark-hive的依赖 目录 第一部分:自定义函数(常用的一些窗体函数) 第二部分:自定义聚合函数(弱类型) 第三部分:自定义聚合函数(强类型) package com.spark.self import org.apache.spark.sql.SparkSession object UdfDemo { def main(args: Array[...原创 2019-12-18 16:03:39 · 360 阅读 · 0 评论 -
大数据学习之 Hive Sql篇
1. 准备数据: score.csv数据如下: 01,01,80 01,02,90 01,03,99 02,01,70 02,02,60 02,03,80 03,01,80 03,02,80 03,03,80 04,01,50 04,02,30 04,03,20 05,01,76 05,02,87 06,01,31 06,03,34 07,02,89 07,03,98 student.cs...原创 2019-12-24 17:48:16 · 333 阅读 · 0 评论 -
大数据学习之Spark-SQL
第一步:准备json文件,和txt文件内容如下 json 文件: {"name":"Michael"}, {"name":"Andy", "age":30}, {"name":"Justin", "age":19} txt文件: Michael, 29 Andy, 30 Justin, 19 第二步: 引入spark-sql 依赖 <dependency> ...原创 2019-12-13 17:32:23 · 217 阅读 · 0 评论 -
大数据学习之 Hive篇
一 :Hive是什么? 1. hive 是一个sql解析引擎,将sql语句转移成Mapreduce 然后在hadoop平台上运行,达到快速开发的目的 2.hive中的表是纯逻辑表,就只是表的定义等,即表的元数据,本质就是hadoop的目录、文件 达到元数据与数据存储分离的目的 3.hive本身不存储数据,完全依赖HDFS和MapReduce 4.hive的内容是读多写少,不支持对数...原创 2019-11-29 15:16:58 · 568 阅读 · 0 评论 -
大数据学习之 Kafka 篇
一:简介 一种分布式的基于发布/订阅的消息系统 二:场景 常用组合:常用 flume (收集数据) --> kafka(把收集来的数据存储到kafka) --> spark Streaming(使用spark Streaming 从kafka中取数据) 运用场景:1.系统之间的解耦合 2.峰值压力缓冲 3.异步通信 三:特点 1.消息持久化 2.高吞吐量 ...原创 2019-11-26 11:16:31 · 158 阅读 · 0 评论 -
spark jieba 分词 用cluster模式,提交到yarn上
需要在pom 文件中引入 jieba的依赖 <dependency> <groupId>com.huaban</groupId> <artifactId>jieba-analysis</artifactId> <version>1.0.2</version> </dependency> ya...原创 2019-11-20 16:10:02 · 518 阅读 · 0 评论 -
大数据学习之 Spark篇
1.spark 是什么? 基于内存的分布式并行的计算框架(还有 mapReduce, storm(目前用的少)) spark 的吞吐量更大,但是有秒级别的延迟(storm 是毫秒级的延迟,Flink 也是毫秒级的延迟) executor : 是一个进程,装载在container里运行 ,executor 分配的内存是一个G ---------------------------------...原创 2019-11-20 14:31:10 · 532 阅读 · 0 评论