Spark ml之Tokenizer

最新推荐文章于 2023-01-30 12:38:54 发布

数往知来

最新推荐文章于 2023-01-30 12:38:54 发布

阅读量1.6k

点赞数

分类专栏： Spark

本文链接：https://blog.csdn.net/qq_33891419/article/details/103767629

版权

本文介绍了Spark ml中的Tokenizer组件，它用于将文本拆分成单词。文章详细讲解了RegexTokenizer如何根据正则表达式进行更灵活的分词，并提供了默认配置和自定义分隔符的使用方式。还分享了一段示例代码来展示Tokenizer的运用。

摘要由CSDN通过智能技术生成

Spark ml中的Tokenizer（分词器）

Tokenizer是将文本如一个句子拆分城单词的过程，在spark ml中提供Tokenizer实现此功能RegexTokenizer提供了跟高级的基于正则表达式匹配的单词拆分。默认情况下，参数pattern(默认的正则表达式："\s+") 作为分隔符用于拆分输入的文本，或者，用户将参数 gaps设置为false，指定正则表达式pattern表示为tokens，而不是分隔符，这样作为划分结果找到的所有匹配项，很简单，主要是看自己业务数据切分的逻辑。
示例代码，也是官网给出的示例：

import org.apache.spark.ml.feature.{
   RegexTokenizer, Tokenizer}
import org.apache.spark.sql.SparkSession
import org.apache.spark.sql.functions._

/**
  *
  * @author wjc
  *
  *         Tokenizer
  **/
object Tokenizer extends App {
   

  val spark = SparkSession
    .builder()
    .master("local[*]"

最低0.47元/天解锁文章

数往知来

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Spark ml之Tokenizer

Spark ml中的Tokenizer（分词器）Tokenizer是将文本如一个句子拆分城单词的过程，在spark ml中提供Tokenizer实现此功能RegexTokenizer提供了跟高级的基于正则表达式匹配的单词拆分。默认情况下，参数pattern(默认的正则表达式："\s+") 作为分隔符用于拆分输入的文本，或者，用户将参数 gaps设置为false，指定正则表达式pattern表示...
复制链接

扫一扫

专栏目录