pyspark特征工程常用方法（一）

最新推荐文章于 2024-07-20 00:19:29 发布

诗蕊

最新推荐文章于 2024-07-20 00:19:29 发布

阅读量1.1w

点赞数 7

分类专栏：机器学习 Spark 文章标签： MinMaxScaler 分箱 onehotEncoding PCA normilization

本文链接：https://blog.csdn.net/Katherine_hsr/article/details/81004708

版权

本文详述了PySpark中特征工程的五个关键步骤：使用MinMaxScaler进行缩放，Normalization规范化，OneHotEncoding编码，PCA主成分分析，以及QuantileDiscretizer进行数据分箱，包括如何处理空值。

摘要由CSDN通过智能技术生成

本文记录特征工程中常用的五种方法：MinMaxScaler，Normalization，OneHotEncoding，PCA以及QuantileDiscretizer 用于分箱
原有数据集如下图：
这里写图片描述

1. MinMaxScaler

from pyspark.ml.feature import MinMaxScaler
# 首先将c2列转换为vector的形式
vecAssembler = VectorAssembler(inputCols=["c2"], outputCol="c2_new")
# minmax tranform
mmScaler = MinMaxScaler(inputCol='c2_new', outputCol='mm_c2')
pipeline = Pipeline(stages=[vecAssembler, mmScaler])
pipeline_fit = pipeline.fit(df)
df = pipeline_fit.transform(df)

通过以上转换，可以将c2列转换为c2_new，结果如图：
这里写图片描述

2. Normalization

from pyspark.ml.feature import Normalizer
vecAssembler = VectorAssembler(inputCols=['c2', 'c5'], outputCol=

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

诗蕊

关注关注

7
点赞
踩
44

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

5、pyspark集群与导入用户自定义模块执行demo.pdf

06-13

Pyspark特征工程--MinMaxScaler

weixin_46408961的博客

03-09

1061

MinMaxScaler class pyspark.ml.feature.MinMaxScaler(min=0.0, max=1.0, inputCol=None, outputCol=None) 使用列摘要统计将每个特征单独重新缩放到一个公共范围 [min, max]，这也称为最小-最大归一化或重新缩放。特征 E 的重新缩放值计算为：重新缩放 (e_i) = (e_i --E_min) / (E_max --E_min) * (max --min) + min 对于 E_max == E_mi

2 条评论您还未登录，请先登录后发表或查看评论

Pyspark:特征处理(ml.feature包的使用)

读万卷书行万里路

10-15

1900

ml.feature于分类变量映射有关的类主要有：VectorIndexer、StringIndexer和IndexToString类。ml.feature包中常用归一化的类主要有：MaxAbsScaler、MinMaxScaler、StandardScaler、RobustScaler和Normalizer。除了以上介绍的类之外，ml.feature包中还有其他方法。结合以上对OneHotEncoder的转化结果进行说明：字段中的最大值即为转后的向量的维度，注意不是字段中不同值的总数；

PySpark 大数据分析实用指南（一）

最新发布

龙哥盟

07-20

989

Apache Spark 是一个开源的并行处理框架，已经存在了相当长的时间。Apache Spark 的许多用途之一是在集群计算机上进行数据分析应用程序。本书将帮助您实施一些实用和经过验证的技术，以改进 Apache Spark 中的编程和管理方面。您不仅将学习如何使用 Spark 和 Python API 来创建高性能的大数据分析，还将发现测试、保护和并行化 Spark 作业的技术。本书涵盖了 PySpark 的安装和设置、RDD 操作、大数据清理和整理，以及将数据聚合和总结为有用报告。

pyspark 特征工程

02-10

2370

曾经在15、16年那会儿使用Spark做机器学习，那时候pyspark并不成熟，做特征工程主要还是写scala。后来进入阿里工作，特征处理基本上使用PAI 可视化特征工程组件+ODPS SQL，复杂的话才会自己写python处理。最近重新学习了下pyspark，笔记下如何使用pyspark做特征工程。我们使用movielens的数据进行，oneHotEncoder、multiHotEncoder和Numerical features的特征处理。

Pyspark特征工程--VectorSizeHint

weixin_46408961的博客

03-11

420

VectorSizeHint class pyspark.ml.feature.VectorSizeHint(inputCol=None, size=None, handleInvalid=‘error’) 将大小信息添加到向量列的元数据的特征转换器。 VectorAssembler 需要其输入列的大小信息，并且不能在没有此元数据的情况下用于流数据帧 VectorSizeHint 修改 inputCol 以包含大小元数据并且没有 outputCol 只有指定大小的才能使用 01.创建数据 from pysp

Machine-Learning-with-Pyspark

05-02

此外，还有模型评估、特征工程、管道和超参数调优等功能。 6. **数据预处理**: 在进行机器学习之前，数据通常需要清洗、转换和归一化。PySpark提供了DataFrame和Dataset数据结构，方便进行数据操作。例如，可以使用...

pyspark-cheatsheet：to PySpark中常见模式和功能的快速参考指南

02-04

2. **DataFrame**：PySpark中的DataFrame类似于SQL中的表格，是一种结构化的数据集，支持多种操作，如选择、过滤、聚合等。DataFrame在内存中以优化的列式存储，提供了高效的数据处理。 3. **DataFrame API**：...

Stroke_Prediction_Spark：使用PySpark进行中风预测

02-10

同时，特征选择也是重要的一环，可以借助相关性分析、L1正则化等方法找出最有影响力的特征。 3. **数据划分**：为了训练和验证模型，我们需要将数据集分为训练集、验证集和测试集。可以使用`randomSplit()`函数进行...

Udacity-PySpark1:Udacity-PySpark1-

03-12

在本课程中，你将学习如何在Jupyter Notebook环境中搭建PySpark环境，这个环境是数据科学家和分析人员常用的数据探索和模型构建工具。Jupyter Notebook允许你混合编写代码、文本、图表和数学公式，提供了直观的学习...

pyspark_nltk数据和代码

06-03

用pyspark+nltk处理文本数据

Spark之特征预处理

mosu027的博客

03-16

836

数据预处理：Z-score标准化、0-1标准化....

Pyspark特征工程--QuantileDiscretizer

weixin_46408961的博客

03-10

1577

QuantileDiscretizer class pyspark.ml.feature.QuantileDiscretizer(numBuckets=2*, inputCol=None, outputCol=None, relativeError=0.001, handleInvalid=‘error’) QuantileDiscretizer 采用具有连续特征的列，并输出具有分箱分类特征的列。可以使用 numBuckets 参数设置分箱的桶数。使用的桶数可能会小于此值，例如，如果输入的不同值太少而无法创

pyspark.ml.feature特征工程常用方法（二）

Black eyes的博客

01-08

904

本篇博文主要是对pyspark.ml.feature模块的函数进行介绍，也可以直接看官网文档。其中博文的数据皆来自官方文档中例子。官方文档地址：http://spark.apache.org/docs/latest/api/python/pyspark.ml.html pyspark.ml.feature 函数概括： __all__ = ['Binarizer', 'Bucketizer',...

Apriori算法的python实现——机器学习

Horace Ho的博客

04-19

1124

原始链接：基于Python的机器学习实战：Apriori原始链接里的代码是在python2下写的，有的地方我看的不是太明白，在这里，我把它修改成能在python3下运行了，还加入了一些方便自己理解的注释。Apriori算法的pyspark实现：pyspark实现Apriori算法、循环迭代、并行处理[python] view plain copy#coding=utf8 #python3.5 ...

Pyspark特征工程--OneHotEncoderEstimator

weixin_46408961的博客

03-09

2526

从spark版本2.4起，**OneHotEncoderEstimator已重命名为OneHotEncoder 常用于StringIndexer之后，返回的新的列是一个向量例如，对于 5 个类别，输入值 2.0 将映射到 [0.0, 0.0, 1.0, 0.0] 的输出向量。独热编码（One-Hot Encoding）将表示为标签索引的分类特征映射到二进制向量，该向量最多具有一个单一的单值，该单值表示所有特征值集合中特定特征值的存在。此编码允许期望连续特征（例如逻辑回归）的算法使用分类特征。

Spark机器学习管道 - Estimator

需要远程指导仿真实验、代码有问题的，请后台私信或者关注公众号

07-04

527

掌握Spark机器学习管道中常用Estimator的使用。1、使用IDF estimator，计算每个单词的重要性。 2、使用StringIndexer estimator来对电影类型进行编码。 3、使用OneHotEncoderEstimator estimator将分类值的索引编码为二元向量。 4、使用MinMaxScaler estimator对数值数据进行规范化。 5、使用MinMaxScaler estimator对数值数据进行标准化。一个Estimator代表了一种机器学习算法，

pyspark官方文档中的pyspark.ml.feature函数中文简介

YW_Vine的博客

04-28

7366

可以看成对pyspark.ml.feature中的方法的大致中文翻译吧，例子基本都是给予官方文档上的例子，目的就是为了对里面的函数有大致的了解，如果要是看具体的还是看官方文档好，待整理待更新，有点乱。官方文档地址： http://spark.apache.org/docs/latest/api/python/pyspark.ml.html 1、Binarizer(threshold=...