分布式大数据处理系统
介绍常见的大数据处理系统,包括Spark、Hadoop、Fink等
华师数据学院·王嘉宁
研究方向:深度学习、自然语言处理、知识图谱。
研究兴趣:大语言模型训练与推理、知识增强预训练、Prompt-tuning、小样本学习、问答系统、信息抽取。
展开
-
抖音推荐的背后原理——大数据+推荐
抖音推荐的背后原理——大数据+推荐 大数据作为当前热门的话题,在软件开发与人工智能领域的敲门砖,各大厂都需要接触过大数据应用项目的人才。本文以大数据处理为出发点,浅层地讲述抖音推荐的背后原理。关键词:大数据、推荐系统、关系图谱、数据中台、联邦学习什么是大数据? 大数据具备5V特性分别是:(1)Volume:数据量大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是P(1000个T)、E(100万个T)或Z(10亿个T)。(2)Variety:种类和来源多样化。包括结构化、半结构化原创 2020-09-22 12:11:43 · 32786 阅读 · 0 评论 -
分布式大数据系统概览(HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph)
分布式大数据处理系统概览(四) 本博文主要对现如今分布式大数据处理系统进行概括整理,相关课程为华东师范大学数据科学与工程学院《大数据处理系统》,参考大夏学堂,下面主要整理HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph有关的内容。分布式大数据处理系统大纲分布式大数据...原创 2020-01-10 15:56:31 · 770 阅读 · 0 评论 -
分布式大数据系统概览(HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph)
分布式大数据处理系统概览(三) 本博文主要对现如今分布式大数据处理系统进行概括整理,相关课程为华东师范大学数据科学与工程学院《大数据处理系统》,参考大夏学堂,下面主要整理HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph有关的内容。分布式大数据处理系统大纲分布式大数据...原创 2020-01-10 15:55:17 · 481 阅读 · 0 评论 -
分布式大数据系统概览(HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph)
分布式大数据处理系统概览(二) 本博文主要对现如今分布式大数据处理系统进行概括整理,相关课程为华东师范大学数据科学与工程学院《大数据处理系统》,参考大夏学堂,下面主要整理HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph有关的内容。分布式大数据处理系统大纲分布式大数据...原创 2020-01-10 15:54:18 · 461 阅读 · 0 评论 -
分布式大数据系统概览(HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph)
分布式大数据处理系统概览(一) 本博文主要对现如今分布式大数据处理系统进行概括整理,相关课程为华东师范大学数据科学与工程学院《大数据处理系统》,参考大夏学堂,下面主要整理HDFS/MapReduce/Spark/Yarn/Zookeeper/Storm/SparkStreaming/Lambda/DataFlow/Flink/Giraph有关的内容。分布式大数据处理系统大纲分布式大数据...原创 2020-01-10 15:52:48 · 1136 阅读 · 0 评论