Spark与机器学习入门篇

最新推荐文章于 2024-04-29 23:48:30 发布

诚许愿

最新推荐文章于 2024-04-29 23:48:30 发布

阅读量512

点赞数 1

分类专栏：大数据与机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42063793/article/details/96973702

版权

大数据与机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

视频学习链接：https://study.163.com/course/courseLearn.htm?courseId=1209408816#/learn/video?lessonId=1279281512&courseId=1209408816

1、Spark MLlib

机器学习利用数据或以往经验，一次优化计算机程序的性能标准

其中模型是算法用数据进行训练以后得到模型。

传统机器学习需要从海量数据中进行抽样提取特征，大数据基础下可以对数据进行全量学习。

2、机器学习流水线（构建、评估和调整机器学习工作流的工具）

输入的DataFrame（二维表）在每个阶段都会被转换，如下图所示：上一行表示转换器，其中Tokenizer是一个分词器，它对原始输入的文本文件（Raw text输入数据集）的英语单词进行分词，得到很多个单词即下一行的Words。然后再作为HashingTF的输入，把单词转换为特征向量，进行后面的机器学习。特征向量可以拿来在Logistic Regression逻辑斯蒂回归算法（评估器）进行训练，评估器调用.fit()方法进行训练，就可以得到Logistic Regression Model。

简单的例子：

1、初始数据集的构建

2、定义Pipeline阶段：分词器（转换器）、转换器、评估器

3、组装并构建模型

4、构建测试数据

没有标签列，标签列是预测出来的。

5、调用模型，生成预测结果

3、特征抽取：TF-IDF（词频-逆向文件评率）

在文本挖掘中广泛使用的特征向量化方法，体现一个文档中词语在语料库中的重要程度。

可对IDF输入训练集，调用.fit()得到一个模型。

过程描述：

1、以一组句子开始

2、首先使用分解器Tokenizer把句子划分为单个词语

3、对每一个句子（词袋），使用HashingTF将句子转换为特征向量

4、最后使用IDF重新调整特征向量

这里面，每一个句子代表一个文档。调用.toDF()构建文档（句子）中的列，得到一个二维表（包括两列），然后对二维表进行转换。

分词器的输入列为二维表中的“sentence”列，结果为“words”列。

输入单词列，将单词进行特征化向量表示。但是到这里还没有完成调权重的过程。用IDF进行权重调整。

先用IDF评估器进行训练，得到一个IDF模型。

输入的是原特征向量rawFeatures,输出的是调整以后的特征向量features。此时里的特征向量列应该是调整以后的内容。

对评估器进行训练，用featurizedData数据集作为输入来调用.fit()方法完成idf的训练，得到模型。

得到的模型对得到的新的特征向量进行调权重的操作。

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Spark与机器学习入门篇

视频学习链接：https://study.163.com/course/courseLearn.htm?courseId=1209408816#/learn/video?lessonId=1279281512&courseId=12094088161、Spark MLlib机器学习利用数据或以往经验，一次优化计算机程序的性能标准其中模型是算法用数据进行训练以后得到模型。...
复制链接

扫一扫

专栏目录

诚许愿 CSDN认证博客专家 CSDN认证企业博客

码龄6年

28: 原创

15万+: 周排名

192万+: 总排名

3万+: 访问

: 等级

597: 积分

5: 粉丝

8: 获赞

0: 评论

61: 收藏

私信

关注

分类专栏

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。