![](https://img-blog.csdnimg.cn/direct/0731194f05764ebfa3e017d9bf2632ec.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
大数据开发
文章平均质量分 54
以实战为线索,逐步深入大数据开发的各个环节,掌握常用性能优化思路,打造存算分离,流批一体,高效数据架构。
Oo_Amy_oO
这个作者很懒,什么都没留下…
展开
-
云服务器docker-compose部署kafka并编写ava使用kafka示例代码
这个Docker Compose文件将会启动一个Zookeeper和一个Kafka容器。注意,我们在Kafka容器中设置了一个环境变量来指定Kafka的主机名。然后,创建一个新的目录来存放你的Docker Compose配置文件。通过以上步骤,你应该可以在云服务器上使用Docker Compose部署Kafka,并编写Java示例代码来使用Kafka。以上代码包括一个简单的Kafka生产者和一个消费者。接下来,你可以编写使用Kafka的Java示例代码。到你的类路径中,以便在命令中使用。原创 2024-01-09 15:57:39 · 453 阅读 · 0 评论 -
解决Exception in thread “main“ joptsimple.UnrecognizedOptionException: zookeeper is not a recognized问题
解决kafka报错Exception in thread “main“ joptsimple.UnrecognizedOptionException: zookeeper is not a recognized原创 2024-02-08 16:36:34 · 432 阅读 · 0 评论 -
Apache Spark基本概念
在大数据分析中,Spark 可以处理各种类型的数据,包括结构化数据、半结构化数据和非结构化数据。Apache Spark 是一种快速、高效的通用分布式计算引擎,具有内存计算和迭代计算的能力。RDD(Resilient Distributed Datasets):是 Spark 的核心数据模型,表示一个不可变的分布式数据集合,可以存储在内存或磁盘上。MLlib:是 Spark 的机器学习库,支持数据预处理、分类、聚类、回归等机器学习算法。GraphX:是 Spark 的图形处理库,支持图形计算和分析。原创 2023-11-15 15:37:57 · 69 阅读 · 0 评论 -
流批一体架构
调度和监控:可以使用Flink和Hive的调度和任务管理工具,如Apache Mesos、YARN、Kubernetes等,进行任务的调度和监控。使用流批一体数据存储系统:流批一体数据存储系统是一种将流式数据和批量数据进行统一存储和管理的系统,如Apache Kafka、Hadoop等。通过以上步骤,可以实现基于Flink和Hive的流批一体架构,实现实时流处理和离线批处理的整合,提高数据处理效率和实时性。同时,通过Hive提供的强大的查询和分析功能,可以对数据进行深入的分析和挖掘。原创 2023-12-19 16:42:46 · 1389 阅读 · 1 评论 -
存算分离数据架构
在传统的架构中,存储和计算通常是紧密耦合的,数据必须从存储系统中读取到计算节点进行处理。在这个存算分离架构中,数据的存储和计算被解耦,可以灵活地进行扩展和优化。总结: 搭建存算分离数据架构需要设计存储层和计算层的架构,进行数据同步和导入,将计算和存储分离,设计数据访问接口,并进行监控和优化。计算和存储分离:将计算过程从存储层分离出来,将计算结果存储到独立的计算数据层中。数据同步和导入:将持久化数据从存储层导入到计算层,可以使用ETL工具或者自定义数据同步脚本进行数据导入,保证计算层能够及时获取最新的数据。原创 2023-12-19 16:53:35 · 1162 阅读 · 1 评论