2019年07月_逃跑的沙丁鱼

原创 scala语言的贷出模式使用SparkStreaming 读取Kafka主题里的单词实现wordcount

引入第三方jar <dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-streaming-kafka_2.11</artifactId> <version&...

2019-07-31 16:31:58 238

转载 Kafka consumer group位移重设offset

Kafka consumer group位移重设本文阐述如何使用Kafka自带的kafka-consumer-groups.sh脚本随意设置消费者组(consumer group)的位移。需要特别强调的是，这是0.11.0.0版本提供的新功能且只适用于新版本consumer。在新版本之前，如果要为已有的consumer group调整位移必须要手动编写Java程序调...

2019-07-30 22:16:31 894

原创 Apache Kafka 简单消费者实例

我们已经创建了一个发送消息到Kafka集群的生产者。现在让我们创建一个消费者来消费Kafka集群的消息。KafkaConsumer API用于消费来自Kafka集群的消息。KafkaConsumer类的构造函数定义如下。public KafkaConsumer(java.util.Map<java.lang.String,java.lang.Object> configs)...

2019-07-30 16:40:12 565

原创 Apache Kafka 简单生产者实例

Apache Kafka 简单生产者示例让我们使用Java客户端创建一个用于发布和使用消息的应用程序。Kafka生产者客户端包括以下API。KafkaProducer API让我们了解本节中最重要的一组Kafka生产者API。KafkaProducer API的中心部分是KafkaProducer类。KafkaProducer类提供了一个选项，用于将其构造函数中的K...

2019-07-29 22:59:32 666

原创使用Kafka Connect来导入/导出数据

从控制台读出数据并将其写回是十分方便操作的，但你可能需要使用其他来源的数据或将数据从Kafka导出到其他系统。针对这些系统，你可以使用Kafka Connect来导入或导出数据，而不是写自定义的集成代码。Kafka Connect是Kafka的一个工具，它可以将数据导入和导出到Kafka。它是一种可扩展工具，通过运行connectors（连接器），使用自定义逻辑来实现与外部系统的交互。在...

2019-07-29 18:26:02 653 1

原创 kafka JsonParseException: Unrecognized token 'xxx': was expecting ('true', 'false' or 'null') 异常解决

ERROR WorkerSinkTask{id=local-file-sink-0} Task is being killed and will not recover until manually restarted (org.apache.kafka.connect.runtime.WorkerTask:178)按照http://kafka.apachecn.org/quickstar...

2019-07-29 17:35:04 1709

原创 IDEA实现从Socket 实时（近实时）读取数据的WordCount

一，intellijidea本地执行SparkStreaming代码1 用intellij idea 创建自己的项目resources导入hdfs-site.xml 和 core-site.xml2 贷出模式实现的SparkStreaming代码进行实时wordcount 统计代码如下：package ezr.bigdata.spark.hive.job2impor...

2019-07-17 20:59:39 928

m0_37813354的博客