大数据
文章平均质量分 51
bigdata_HQL
这个作者很懒,什么都没留下…
展开
-
SparkCore知识点及部分算子
Spark中最基本的数据抽象是RDD。RDD(Resilient Distributed Dataset) 为弹性分布式数据集。RDD 的特性一组分区对于每个切片(分区),有一个计算函数与其它RDD的依赖关系分区器 K-V优先计算位置创建RDD的方式创建RDD的方式有三种集合中创建外部存储系统的数据集创建其它RDD创建集合中创建Spark主要提供了两种函数parallelize 和 makeRDD val value: RDD[Int] = sc.parallel原创 2021-12-10 20:34:38 · 1243 阅读 · 0 评论 -
数据采集从Flume到hadoop的补救方案
Flume滚动时间原创 2021-12-09 14:24:45 · 1032 阅读 · 0 评论 -
关于Flume采集数据在hdfs形成大量小文件的处理方法
数据采集:从Flume到Hadoop,出现小文件的解决办法原创 2021-12-09 11:48:58 · 1777 阅读 · 0 评论 -
Flink 流处理核心编程及算子操作
Flink 流处理核心编程经过一段时间的学习,我对flink流处理的编程基础、核心API、开发流程等做出了如下整理。Environment运行环境flink的运行环境包括批处理环境和流处理环境在开发过程中获取比较简单,只需要如下操作// 批处理环境ExecutionEnvironment benv = ExecutionEnvironment.getExecutionEnvironment();// 流式数据处理环境StreamExecutionEnvironment env = Stre原创 2021-11-13 22:31:16 · 1431 阅读 · 0 评论