![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
Spark机器学习
不务正业的猿
桃李不言,下自成蹊。
展开
-
Spark机器学习(三)-Spark基础知识
目录Spark基础知识Spark是什么?Spark支持哪些开发语言?Spark运行模式SparkContextRDDSpark基础知识这本书主要是讲Spark的机器学习内容,Spark的基础知识,讲得比较简单。如果大家需要更深入学习Spark,可以找Spark相关书籍再详细研究。这里我简单总结一下一些关键知识点。Spark是什么?官网(https://spark.apache.org/)描述:Apache Sparis a unified analytics e.原创 2020-11-26 17:56:39 · 426 阅读 · 0 评论 -
Spark机器学习(二)-机器学习基础知识
机器学习基础知识这次主要是记录自己学习《Spark机器学习》这本书的学习过程,并不会长篇大论讲述机器学习的基础理论,这里简单点一下即可。机器学习流程机器学习流程主要可分为以下几部分: 数据收集 数据预处理 特征工程 模型训练 模型测试验证 模型部署上线 机器学习模型的分类可以分为两大类:监督学习:使用已标记数据来学习。“已标记”很关键,训练集必须是有标签的,不然就很难使用监督学习的模型。像经典的Kaggle的泰坦尼克号那个比赛就原创 2020-11-18 16:19:12 · 620 阅读 · 0 评论 -
Spark机器学习(一)-Spark工程搭建
目录概述环境准备搭建Spark项目的代码工程创建maven项目工程创建scala测试类整合spark环境概述最近自己在加强AI这块,以前做Java、大数据分析比较多,所以对CDH那套东西都比较熟悉,例如Hadoop、Spark。但Spark这块中的ML用得不是很多,以前项目中,涉及到算法部分,我们往往都会让python系的同事负责。在AI这方面,python语言确实会有比较大的优势。当然,如果你的数据环境是基于Hadoop这些大数据框架来搭建的,我们也会用上spark去做算法原创 2020-11-03 16:56:30 · 4362 阅读 · 0 评论