Spark MLlib 特征工程系列—特征转换N-Gram

猫猫姐

已于 2024-08-15 15:31:36 修改

阅读量278

点赞数 3

分类专栏： Spark实战文章标签： spark-ml spark

于 2024-08-14 09:37:35 首次发布

本文链接：https://blog.csdn.net/2401_84052244/article/details/141181949

版权

Spark MLlib 特征工程系列—特征转换N-Gram

在Spark中，NGram 是一个特征转换器，用于从输入的词汇序列生成n-gram特征。n-gram 是一种常用的文本处理方法，指的是由 n 个连续的词组成的序列。n-gram 模型在自然语言处理（NLP）任务中被广泛用于捕捉词语之间的关系。

N-Gram

1. 原理

n-gram 是一种从文本中提取连续的n个词的子序列的方法。对于一个句子或单词序列，n-gram 模型会生成所有可能的 n 个连续词的组合。例如：

1-gram（unigram）: 每个单词单独作为一个特征。
2-gram（bigram）: 每两个连续的单词作为一个特征。
3-gram（trigram）: 每三个连续的单词作为一个特征。

n-gram 模型通过捕捉词汇之间的局部依赖关系，有助于在文本处理中保留上下文信息。

2. 使用 `NGram` 的代码示例

下面是一个使用 Spark 的 NGram 转换器的示例，展示如何生成 n-gram 特征。

import org.apache.spark.ml.feature.NGram
import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder.appName("NGram Example").getOrCreate()

// 示例数据集
val data

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

猫猫姐

关注关注

3
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

spark(60) -- SparkMllib -- 基于SparkMllib数据特征工程构建过程

erainm

10-17

630

1. SparkMllib特征工程构建过程 2. SparkMllib特征提取操作实践 3. SparkMllib特征转换操作详解及实践 4. SparkMllib特征选择操作及实践 5. 项目案例-业务数据统计分析实践 6. 项目案例-Iris鸢尾花数据分析案例实践 7. 项目案例Homeprise数据分析实践

Spark MLlib 特征工程系列—特征提取Word2Vec

2401_84052244的博客

08-12

1003

Word2Vec 是一种流行的词嵌入方法，用于将词语转换为低维的向量表示，这些向量能够捕捉词语之间的语义关系。：词向量的每个维度（即向量中的每个数字）通常不直接代表某个具体的语法或语义特征，而是从大规模语料中学习到的抽象特征。词向量的维度指的是用来表示每个词语的向量的长度，或者说是向量中包含的数值元素的个数。Word2Vec 的主要目标是生成单词的向量表示，而不是整个文本的向量表示。：如果词向量的维度是 100，那么每个词语都被表示为一个 100 维的实数向量，类似于一个包含 100 个数字的列表。

参与评论您还未登录，请先登录后发表或查看评论

SparkMllib特征提取、转换、选择

AiBigData的博客

11-21

731

SparkMllib特征提取、转换、选择 SparkMllib特征提取 TF-IDF的理解 TF（Term frequence）:某个词在一个文档中出现的频率。 TF=某个词在一个文档中出现的次数这个文档中词的总数 TF=\frac{某个词在一个文档中出现的次数}{这个文档中词的总数} TF=这个文档中词的总数某个词在一个文档中出现的次数有些停用词几乎在所有的文章中都有出现，故只使用词频来进行...

【Spark MLlib】（二）Spark MLlib 特征工程 - 提取、转换和选择

云祁QI

03-13

2124

Spark MLlib中关于特征处理的相关算法，大致分为以下几组：提取(Extraction)：从“原始”数据中提取特征转换(Transformation)：缩放，转换或修改特征选择(Selection)：从较大的一组特征中选择一个子集局部敏感哈希(Locality Sensitive Hashing，LSH)：这类算法将特征变换的各个方面与其他算法相结合。文章目录一、特征的提取1....

Spark Mllib之特征提取和转换--基于RDD

大雄没有叮当猫的博客

09-10

1474

微信公众号:数据挖掘与分析学习 TF-IDF Word2Vec Model Example StandardScaler Model Fitting Example Normalizer Example ChiSqSelector Model Fitting Example 1.TF-IDF 词频- 逆文档频率（TF-IDF）是在文本挖掘...

Spark ml 特征工程

purisuit_knowledge的专栏

01-21

1455

参考：https://www.jianshu.com/p/e662daa8970a https://blog.csdn.net/qq_34531825/article/details/52415838 https://blog.csdn.net/qq_34531825/article/details/52431264 h...

Spark ML特征的提取、转换和选择

象在舞的技术专栏

04-28

3850

声明：代码主要以Scala为主，希望广大读者注意。本博客以代码为主，代码中会有详细的注释。相关文章将会发布在我的个人博客专栏《Spark 2.0机器学习》，欢迎大家关注。一、特征的提取 1、TF-IDF（词频-逆向文档频率） TF（词频）：HashingTF与CountVectorizer用于生成词频TF向量。HashingTF是一个特征词集的转换器（Tra...

Spark-机器学习（2）特征工程之特征提取

qq_49513817的博客

04-16

3228

今天的文章，我会带着大家一起了解我们的特征提取和我们的tf-idf，word2vec算法。希望大家能有所收获。同时，本篇文章为个人spark免费专栏的系列文章，有兴趣的可以收藏关注一下，谢谢。同时，希望我的文章能帮助到每一个正在学习的你们。也欢迎大家来我的文章下交流讨论，共同进步。

Spark特征工程

u013090676的博客

11-17

2433

按照惯例，先附上业界那句名言“数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已”。特征工程是指用一系列工程化的方式从原始数据中筛选出更好的数据特征，以提升模型的训练效果。简而言之，就是为算法提供更友好的输入，以最大化地发挥算法的作用。同时，特征工程虽然是一种技术，但其前提是对数据以及产生这些数据的具体业务场景有比较深入的理解。一般的，python的sklearn、spark的mll...

spark mllib特征使用案例讲解

11-30

### Spark MLlib 特征使用案例讲解 #### TF-IDF 特征提取 **TF-IDF**（Term Frequency-Inverse Document Frequency，词频-逆文档频率）是一种在信息检索领域广泛应用的权重技术，用于评估一个词语在一个文档或文档...

Spark MLlib模型训练—推荐算法 PrefixSpan

09-11

263

序列模式挖掘是数据挖掘领域中的一个重要分支，旨在从大量序列数据中发现频繁出现的模式。序列数据可以表示为一系列有序事件，例如用户点击流、购买记录、传感器数据等。序列模式挖掘的目的是找到这些数据中的重复序列，帮助理解数据的内在结构。PrefixSpan算法是一种通过构建序列的前缀投影来挖掘频繁序列模式的方法。它避免了候选模式生成和组合的过程，相比于 AprioriAll 等传统算法有更高的效率。PrefixSpan 是基于前缀投影的递归增长法，通过缩减搜索空间来提高挖掘效率。

大数据之Spark（二）

wslzoooo的博客

09-12

1073

Spark与Hive对比数据抽象：RDD、DataFrame（二维表数据结构）SparkSession：在rdd中，程序执行入口对象是SparkContext。SparkSession可用于SparkSQL入口对象，也可用于SparkCore中获取SparkContexthelloworld测试txt文件3,shuxue,91,yuwen,52,yuwen,443,yuwen,64,yuwen,35,yuwen,66,yuwen,3代码df2.show()

大数据之Spark（一）

wslzoooo的博客

09-12

1363

RDD-弹性分布式数据集，是Spark中最基本的数据抽象，代表一个不可变、可分区、里面的元素可并行计算的集合RDD特性RDD有分区RDD的分区是RDD数据存储的最小单位，一份RDD数据本质上分割成多个分区（分区是物理概念RDD的方法会作用在其所有分区上RDD之间有依赖关系kv型的RDD可以有分区器（可选）RDD的分区规划会尽量靠近数据所在的服务器尽量走本地读取，避免网络读取。

spark sql详解

jkzyx123的博客

09-07

1409

Spark SQL 是一个功能强大的模块，旨在简化大规模数据处理，支持 SQL 查询和程序化的 DataFrame/Dataset 操作。它利用 Catalyst 优化器和 Tungsten 执行引擎来实现高效的查询性能，并且能够与广泛的数据源和大数据工具进行集成，适用于批处理、实时处理、数据仓库分析等多种应用场景。

Spark_natural_join

TuringSnowy的博客

09-15

337

在 Apache Spark 中，和INNER JOIN是两种不同的连接操作，它们在合并数据集时有不同的行为和用途。

Spark-累加器Accumulator图文详解

喻师傅的学习笔记

09-13

411

Spark累加器

spark_3_2_0-master-3.2.3-1.el7.noarch.rpm

09-16

Ambari+Bigtop 一站式编译和部署解决方案 https://gitee.com/tt-bigdata/ambari-env

浙大城市学院在河南2021-2024各专业最低录取分数及位次表.pdf

Spark MLlib 特征工程系列—特征转换N-Gram

Spark MLlib 特征工程系列—特征转换N-Gram

N-Gram

1. 原理

2. 使用 NGram 的代码示例

2. 使用 `NGram` 的代码示例