PySpark大数据分析(8)：PySpark机器学习库

唐犁

已于 2022-12-24 09:31:01 修改

阅读量446

点赞数

分类专栏：大数据处理文章标签：大数据

于 2021-05-26 23:11:41 首次发布

本文链接：https://blog.csdn.net/github_38325884/article/details/117307510

版权

大数据处理专栏收录该内容

15 篇文章 2 订阅

订阅专栏

MLlib

数据类型

在PySpark的MLlib中，存在一些常用数据类型，主要用于支持机器学习场景：

Vector
向量，包括稠密与稀疏两种存储方式，是MLlib中最常用到的数据类型之一。PySpark可以直接使用NumPy中的数组作为稠密向量，也可以通过Vectors.dense()将一个列表转为稠密向量。稀疏向量可以通过Vectors.sparse()生成，需要指定向量的长度，同时使用字典或列表声明非零位的值。

import numpy as np
from pyspark.mllib.linalg import Vectors


dense_vector1 = np.array([1, 2, 3])
dense_vector2 = Vectors.dense([4, 5, 6])
sparse_vector1 = Vectors.sparse(3, {0: 7, 1: 8})
sparse_vector2 = Vectors.sparse(3, [0, 2], [9, 10])
print(
    f'''
    Dense vector from NumPy: {dense_vector1}
    Dense vector from PySpark: {dense_vector2}
    Sparse vector from Dict: {sparse_vector1}
    Sparse vector from List: {sparse_vector2}
    '''
)
# output:
# Dense vector from NumPy: [1 2 3]
# Dense vector from PySpark: [4.0,5.0,6.0]
# Sparse vector from Dict: (3,[0,1],[7.0,8.0])
# Sparse vector from List: (3,[0,2],[9.0,10.0])

LabeledPoint
标签，用于有监督学习任务，包含一个特征向量与一个标签。
Rating
评分，是包含一个用户对一个产品的评分的三元组，在MLlib下的recommendation模块中，常用于个性化推荐算法。

from pyspark.mllib.recommendation import Rating


r = Rating('uid1', 1001, 4.5)
print(r.user, r.product, r.rating)  # uid1 1001 4.5

Model
算法模型，作为训练完成后的结果，可以通过predict()进行预测。

特征工程

数值特征

类别特征

StringIndexer

StringIndexer是

One-Hot编码

数据统计

算法

回归

聚类

协同过滤

降维

模型评估

上一篇：PySpark大数据分析(7)：Spark SQL

唐犁

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
PySpark大数据分析(8)：PySpark机器学习库

{}{}{}{}
复制链接

扫一扫

专栏目录