大数据学习笔记
文章平均质量分 70
Merlin雷
这个作者很懒,什么都没留下…
展开
-
pyspark学习笔记:filebeat收集日志通过kafka发送spark存入es-2023-2-18
将filebeat收集的日志数据,接入pyspark进行更多处理,最后存入ES便于数据分析。原创 2023-02-18 23:08:53 · 319 阅读 · 0 评论 -
pyspark学习笔记:mysql-5.7.25安装&pyspark结构化流读写mysql-2023-2-17
mysql安装、mysql中文乱码问题、mysql对接结构化流、kafka读取为结构化流并写入mysql原创 2023-02-18 01:00:02 · 279 阅读 · 0 评论 -
pyspark学习笔记:4- zookeeper3.5.9+kafka2.11-2.4.1单机部署+python api模拟消费者+pyspark结构化流集成kafka的简单使用-2023-2-14
报错:java.util.ServiceConfigurationError: org.apache.spark.sql.sources.DataSourceRegister: Provider org.apache.spark.sql.kafka010.KafkaSourceProvider could not be instantiated解决:使用kafka2.11版本以及spark-sql-kafka-0-10_2.12-2.4.1.jar原创 2023-02-15 01:29:37 · 285 阅读 · 0 评论 -
pyspark学习笔记:spark-local和spark on yarn的简单实现-2022年12月30日
本学习笔记提供spark+python的local和yarn两种部署模式的讲解及使用示例。spark-local仅用1台虚拟机。spark on yarn仅需1台安装spark(用于任务提交yarn)的虚拟机,全部虚拟机需要配好hadoop完全分布式集群及python环境。原创 2022-12-31 00:53:38 · 1068 阅读 · 2 评论 -
hadoop2.7.7+spark2.4.3+idea2020.1.4——搭建完全分布式集群+实现wordcount(MR和Spark本地及打jar包)-2022-12-18
hadoop2.7.7+spark2.4.3+idea2020.1.4搭建完全分布式集群,实现MR和Spark(基于scala)的简单使用,即以wordcount为例。可以作为初学MR分析和Spark分析的入门练习。原创 2022-12-19 00:33:58 · 1351 阅读 · 1 评论