自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(2)
  • 收藏
  • 关注

原创 头歌Spark的机器学习-MLlib

本文介绍了使用Spark MLlib进行机器学习建模的三个案例。第一个案例展示了文本分类的基本流程,包括数据准备、Tokenizer分词、HashingTF特征提取、LogisticRegression建模及预测。第二个案例实现了垃圾邮件检测,通过StringIndexer转换标签,Word2Vec进行文本向量化,并使用RandomForestClassifier构建分类模型。第三个案例演示了红酒分类预测,直接从CSV读取数据转换为特征向量,同样采用随机森林算法进行建模。三个案例均采用Pipeline方式组

2025-06-03 15:54:30 1583 2

原创 头歌网约车大数据综合项目——基于Spark的数据清洗

本文介绍了两个数据清洗任务,分别针对网约车撤销订单和成功订单的数据处理。第一关的任务包括读取.dat文件、清理列名空格、过滤必填字段、处理“null”值、时间格式转换、行政区划代码转换、去重、选择并排序字段,最终输出为单个文件。第二关的任务涉及读取原始数据、删除不需要的列、空字符串转换、处理经纬度字段、时间字段处理、过滤空值和日期范围、格式化时间字段、读取MySQL中的t_address表、添加districtname列、调整列顺序并去重,最终输出结果到单个文件。两个任务均使用Spark进行数据处理,确保数

2025-05-17 19:34:39 694 6

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除