Spark
文章平均质量分 58
cong_han
这个作者很懒,什么都没留下…
展开
-
关于Spark Streaming的时间窗口
通过本文的简介和示例代码,我们了解了如何在 Java 环境下使用 Spark Streaming 调试时间窗口操作。时间窗口是处理实时数据流的重要工具,掌握调试技巧能够帮助我们快速解决问题并提高数据处理效率。本文将介绍如何使用 Spark Streaming 在 Java 环境下调试时间窗口操作,包括代码示例和逻辑解析。接下来,我们需要设置输入数据流。示例代码仅用于演示基本的时间窗口调试,实际应用中可能涉及到更复杂的数据处理逻辑和调试方式。现在我们已经设置好输入数据流,接下来是设置时间窗口并执行数据处理。原创 2023-06-30 15:38:54 · 554 阅读 · 0 评论 -
Spark Streaming发布到Yarn
YARN采用了主从(Master-Slave)架构,其中ResourceManager(RM)作为主节点,负责整个集群的资源管理和调度,而NodeManager(NM)作为从节点,负责管理每个节点的资源。各位小伙伴周末好,之前写了文章介绍了怎么启动一个简单的Spark Streaming,此文开始介绍Yarn的原理,后续将一步步介绍Spark Streaming与Spring Karfka的项目整合。高性能和容错性:YARN具有高效的资源调度算法和容错机制,可以优化资源利用率和提高系统的整体性能。原创 2023-11-11 00:00:00 · 240 阅读 · 0 评论 -
关于Spark Streaming的使用
在使用Kafka和Spark Streaming之前,需要确保已经安装了Java、Scala和相应的依赖库。在上面的代码中,我们创建了一个Spark Streaming应用程序,并使用KafkaUtils.createDirectStream方法来消费Kafka中的数据。其中,我们指定了Kafka的地址、主题、消费者。在上面的代码中,我们创建了一个Kafka生产者,并向名为“test”的主题中写入了100条数据。在使用Kafka和Spark Streaming的过程中,需要考虑到复杂的逻辑和数据处理流程。原创 2023-05-31 01:50:27 · 126 阅读 · 0 评论 -
Spark ML中提取Word2Vec
word2vec一般分为CBOW 与Skip-Gram两种模型Continuous Bag-of-Words,CBOW模型的训练输入是某一个特征词的上下文相关的词对应的词向量,而输出就是这特定的一个词的词向量.Skip-Gram模型和CBOW的思路是反着来的,即输入是特定的一个词的词向量,而输出是特定词对应的上下文词向量。word2vec简单来说是一个特征提取过程,以下为提取的实例.imp...原创 2019-04-15 18:04:39 · 685 阅读 · 0 评论