Spark MLlib机器学习 | 算法综合实战(一)(史上最详细)

本文深入探讨了机器学习的基本概念,重点介绍了Spark的机器学习库MLLib。内容涵盖机器学习工作流,包括数据处理、特征抽取(如TF-IDF和Word2Vec)、特征选择,以及分类与回归算法如逻辑斯蒂回归和决策树。文章还讨论了协同过滤和超参数调优,提供了详细的示例代码和实际应用。
摘要由CSDN通过智能技术生成

                                      

==========                         =========

8.1.1 什么是机器学习

机器学习可以看做是一门人工智能的科学,该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验,以此优化计算机程序的性能标准。

机器学习强调三个关键词:算法、经验、性能 

从最小二乘法说起

                    

机器学习的泛化能力

机器学习的过拟合问题

8.1.2 基于大数据的机器学习

  

8.1.3 Spark 机器学习库MLLib

Spark 机器学习库从1.2 版本以后被分为两个包:

8.2 机器学习工作流

8.2.1 机器学习工作流概念

在介绍工作流之前,先来了解几个重要概念:

工作流的各个阶段按顺序运行,输入的DataFrame在它通过每个阶段时被转换

本节以逻辑斯蒂回归为例,构建一个典型的机器学习过程,来具体介绍一下工作流是如何应用的

任务描述 查找出所有包含"spark"的句子,即将包含"spark"的句子的标签设为1,没有"spark"的句子的标签设为0。

8.2.2 构建一个机器学习工作流

(1)引入要包含的包并构建训练数据集

(2)定义 Pipeline 中的各个工作流阶段PipelineStage,包括转换器和评估器,具体地,包含tokenizer, hashingTF和lr。

(3)按照具体的处理逻辑有序地组织PipelineStages,并创建一个Pipeline。

现在构建的Pipeline本质上是一个Estimator,在它的fit()方法运行之后,它将产生一个PipelineModel,它是一个Transformer。

可以看到,model的类型是一个PipelineModel,这个工作流模型将在测试数据的时候使用

(4)构建测试数据

(5)调用之前训练好的PipelineModel的transform()方法,让测试数据按顺序通过拟合的工作流,生成预测结果

8.3 特征抽取、转化和选择

8.3.1 特征抽取:TF-IDF

“词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。

词语由t表示,文档由d表示,语料库由D表示。词频TF(t,d)是词语t在文档d中出现的次数。文件频率DF(t,D)是包含词语的文档的个数。

TF-IDF就是在数值化文档信息,衡量词语能提供多少信息以区分文档。其定义如下:

TF-IDF 度量值表示如下:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值