干货基于Spark Mllib的SparkNLP库。
干货:基于Spark Mllib的SparkNLP库。
引言
这是来自John Snow Labs工程团队的社区博客和工作,解释了他们对开源Apache Spark自然语言处理(NLP)库的贡献。
Apache Spark是一个通用的集群计算框架,它支持分布式SQL,流式处理,图处理和机器学习。现在,Spark生态系统还有一个Spark Natural Language Processing库。
John Snow Labs NLP库是在Scala编写的Apache 2.0以上,不依赖于其他NLP或ML库。它本地扩展了Spark ML管道API。该框架提供了注释器的概念,并带出了以下内容:
标记生成器
规范化
词干提取
Lemmatizer
实体提取器
日期提取器
Part of Speech Tagger
命名实体识别
句子边界检测
情感分析
拼写检查器
另外,由于与Spark ML的紧密集成,在构建NLP管道时,您可以直接使用Spark的更多功能。这包括词语嵌入,主题建模,停用词移除,各种特征工程功能(tf-idf,n-gram,相似性度量等)以及在机器学习工作流中使用NLP注释作为特征。如果您不熟悉这些术语,那么理解NLP任务的指南是一个好的开始。
Spark ML提供了一套机器学习应用程序&