========== =========
8.1.1 什么是机器学习
机器学习可以看做是一门人工智能的科学,该领域的主要研究对象是人工智能。机器学习利用数据或以往的经验,以此优化计算机程序的性能标准。
机器学习强调三个关键词:算法、经验、性能
从最小二乘法说起
机器学习的泛化能力
机器学习的过拟合问题
8.1.2 基于大数据的机器学习
8.1.3 Spark 机器学习库MLLib
Spark 机器学习库从1.2 版本以后被分为两个包:
8.2 机器学习工作流
8.2.1 机器学习工作流概念
在介绍工作流之前,先来了解几个重要概念:
工作流的各个阶段按顺序运行,输入的DataFrame在它通过每个阶段时被转换
本节以逻辑斯蒂回归为例,构建一个典型的机器学习过程,来具体介绍一下工作流是如何应用的
任务描述 查找出所有包含"spark"的句子,即将包含"spark"的句子的标签设为1,没有"spark"的句子的标签设为0。
8.2.2 构建一个机器学习工作流
(1)引入要包含的包并构建训练数据集
(2)定义 Pipeline 中的各个工作流阶段PipelineStage,包括转换器和评估器,具体地,包含tokenizer, hashingTF和lr。
(3)按照具体的处理逻辑有序地组织PipelineStages,并创建一个Pipeline。
现在构建的Pipeline本质上是一个Estimator,在它的fit()方法运行之后,它将产生一个PipelineModel,它是一个Transformer。
可以看到,model的类型是一个PipelineModel,这个工作流模型将在测试数据的时候使用
(4)构建测试数据
(5)调用之前训练好的PipelineModel的transform()方法,让测试数据按顺序通过拟合的工作流,生成预测结果
8.3 特征抽取、转化和选择
8.3.1 特征抽取:TF-IDF
“词频-逆向文件频率”(TF-IDF)是一种在文本挖掘中广泛使用的特征向量化方法,它可以体现一个文档中词语在语料库中的重要程度。
词语由t表示,文档由d表示,语料库由D表示。词频TF(t,d)是词语t在文档d中出现的次数。文件频率DF(t,D)是包含词语的文档的个数。
TF-IDF就是在数值化文档信息,衡量词语能提供多少信息以区分文档。其定义如下:
TF-IDF 度量值表示如下: