![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
大数据/spark
文章平均质量分 66
Elik-hb
春风得意马蹄尽,一日看尽长安花,向优秀学者看齐,希望自己越来越优秀
展开
-
【spark学习 | sparkstreaming 与kafka】使用sparkstreaming与kafka相结合进行实时处理数据(文件流)
System.err.println("用法: KafkaWordProducer ")// Kafka生产者属性// 文件路径val filePath = "/home/hadoop/bilibili/streaming/data/part2.txt" // 假设数据文件名为 part2.txt// 记录已发送的行数// 等待一段时间再次检查文件是否有新内容// 不会执行到这里,因为循环会一直运行。原创 2024-05-07 16:23:35 · 242 阅读 · 1 评论 -
[spark | 机器学习]房屋实时推荐系统和离线推荐系统开发
一个可以又可视化界面操作的实时推荐系统和离线推荐系统详细开发原创 2024-06-17 10:26:21 · 880 阅读 · 0 评论 -
基于文件流的structstreaming
创建一个java的maven项目,把pom.xml导入,然后修改当前的scala环境2.12.7 或者2.12.x其他版本,然后创建scala项目文件,运行程序。确保你有一个包含数据的文件夹,该文件夹的路径在代码中指定为file:///home/hadoop/Desktop/data2/。在代码中已经指定了master(“local[*]”),这意味着代码将在本地模式下运行,使用所有可用的CPU内核。数据文件应该是文本文件,每行包含以制表符分隔的字段,字段的顺序和类型需要符合代码中定义的结构。原创 2024-05-15 20:46:45 · 69 阅读 · 0 评论 -
kafka_sparkstreaming实现流数据处理数据
创建Topic 名为 fiction_ratings。可以看出,数据已经读取成功,并且可以每秒输出一条。在生产者运行的情况下执行消费者代码,查看输出。启动监控端,监控是否有数据发送到该主题。可以看出数据成功读取并且分析统计。注意这里也要指定号端口,主题目。启动生产者,查看监控终端。启动zookeeper。原创 2024-05-14 13:57:14 · 306 阅读 · 0 评论 -
决策树算法超参数调优
/ 使用BinaryClassificationEvaluator评估AUC。.setNumFolds(5) // 设置交叉验证的折数。).na.fill(0) // 填充空值为0。// 创建SparkSession。// 读取CSV文件并选择所需的列。// 执行交叉验证,并选择最佳模型。// 关闭SparkSession。// 在测试数据集上进行预测。// 实例化决策树分类器。// 在验证集上进行预测。// 对测试集进行预测。// 创建新的标签列。// 设置超参数网格。// 评估预测准确率。原创 2024-05-09 22:25:25 · 404 阅读 · 0 评论 -
决策树算法实现二分类
println(s"训练集行数: ${trainData.count()}, 验证集行数: ${testData.count()}").setHandleInvalid(“skip”) // 设置handleInvalid参数为"skip",跳过空值。// 使用MulticlassClassificationEvaluator评估模型在验证集上的分类准确率。).na.fill(0) // 填充空值为0。// 展示训练集和验证集的行数。// 划分训练集和验证集。// 创建新的标签列。// 创建新的标签列。原创 2024-05-09 22:24:04 · 540 阅读 · 0 评论 -
Spark3.4.0入门:通过idea编写spark程序使用JDBC连接数据库(DataFrame)
title: Spark3.4.0入门:通过idea编写spark程序使用JDBC连接数据库(DataFrame)description: 大数据spark学习imageSlimsticky: 1。原创 2024-04-23 08:18:31 · 637 阅读 · 0 评论 -
Spark3.4.0入门-连接Hive读写数据(DataFrame)
title: Spark3.4.0入门-连接Hive读写数据(DataFrame)description: 大数据spark学习imageSlimsticky: 1。原创 2024-04-23 08:13:30 · 1636 阅读 · 3 评论 -
8.0版本后面的连接spark连接mysql
8.0版本后面的连接:spark连接mysql。原创 2024-04-22 08:36:36 · 145 阅读 · 0 评论 -
实验七 DataStream API编程实践
title: 实验七 DataStream API编程实践description: 大数据flink基础作业imageSlim。原创 2024-04-22 08:28:40 · 1946 阅读 · 2 评论 -
实验二spark读取文件系统的数据
## 基础代码这个是一个基础读取文件代码。原创 2024-04-22 08:27:44 · 145 阅读 · 0 评论