mllib nlp spark_干货基于Spark Mllib的SparkNLP库。

干货基于Spark Mllib的SparkNLP库。

干货:基于Spark Mllib的SparkNLP库。

引言

这是来自John Snow Labs工程团队的社区博客和工作,解释了他们对开源Apache Spark自然语言处理(NLP)库的贡献。

Apache Spark是一个通用的集群计算框架,它支持分布式SQL,流式处理,图处理和机器学习。现在,Spark生态系统还有一个Spark Natural Language Processing库。

John Snow Labs NLP库是在Scala编写的Apache 2.0以上,不依赖于其他NLP或ML库。它本地扩展了Spark ML管道API。该框架提供了注释器的概念,并带出了以下内容:

标记生成器

规范化

词干提取

Lemmatizer

实体提取器

日期提取器

Part of Speech Tagger

命名实体识别

句子边界检测

情感分析

拼写检查器

另外,由于与Spark ML的紧密集成,在构建NLP管道时,您可以直接使用Spark的更多功能。这包括词语嵌入,主题建模,停用词移除,各种特征工程功能(tf-idf,n-gram,相似性度量等)以及在机器学习工作流中使用NLP注释作为特征。如果您不熟悉这些术语,那么理解NLP任务的指南是一个好的开始。

Spark ML提供了一套机器学习应用程序&

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值