Big Data
文章平均质量分 92
WeeeicheN
这个作者很懒,什么都没留下…
展开
-
笔记:分布式大数据技术原理(四)Flink
Flink的窗口和水印机制Flink(五)Flink的窗口和水印机制【附源码】_移望yuan_51CTO博客Window与窗口开始时间Flink之Window与窗口开始时间_heroking-CSDN博客_flink窗口开始时间结束时间Flink WaterMark的通俗理解[Flink] Flink的waterMark的通俗理解_喜笑延开的博客-CSDN博客_flink watermark如何理解WaterMark水印(WaterMark)是 Flink 框架中最晦涩难懂的概念原创 2021-10-08 15:31:39 · 138 阅读 · 0 评论 -
笔记:分布式大数据技术原理(三)Spark
大数据分析技术与应用一站式学习(值得收藏)原创 2021-10-08 15:17:17 · 231 阅读 · 0 评论 -
笔记:分布式大数据技术原理(二)构建在 Hadoop 框架之上的 Hive 与 Impala
”“” 有了 MapReduce,Tez 和 Spark 之后,程序员发现,MapReduce 的程序写起来真麻烦。他们希望简化这个过程。这就好比你有了汇编语言,虽然你几乎什么都能干了,但是你还是觉得繁琐。你希望有个更高层更抽象的语言层来描述算法和数据处理流程。于是就有了 Pig 和 Hive。Pig 是接近脚本方式去描述 MapReduce,Hive 则用的是 SQL。它们把脚本和 SQL语言翻译成 MapReduce 程序,丢给计算引擎去计算,而你就从繁琐的 MapReduce 程序中解脱出来,用更简单原创 2021-09-30 21:33:37 · 666 阅读 · 0 评论 -
笔记:分布式大数据技术原理(一)Hadoop 框架
前言-从 Hadoop 说起什么是 HadoopApache Hadoop 软件库是一个框架,它允许使用简单的编程模型,实现跨计算机集群的大型数据集的分布式处理。它最初的设计目的是为了检测和处理应用程序层的故障,从单个机器扩展到数千台机器(这些机器可以是廉价的),每个机器提供本地计算和存储,而不是依靠硬件提供高可用性。Hadoop 中有3个核心组件:分布式文件系统:HDFS —— 实现将文件分布式存储在很多的服务器上 分布式运算编程框架:MapReduce —— 实现在很多机器上...原创 2021-07-20 14:47:22 · 1163 阅读 · 0 评论