基于spark的自然语言处理包集成和测试(命名实体识别)

最新推荐文章于 2022-10-27 21:24:45 发布

sparkexpert

最新推荐文章于 2022-10-27 21:24:45 发布

阅读量3.6k

点赞数

分类专栏： Spark 文本挖掘文章标签： spark 自然语言处理 nlp

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sparkexpert/article/details/50471942

版权

Spark 同时被 2 个专栏收录

43 篇文章 3 订阅

订阅专栏

16 篇文章 1 订阅

订阅专栏

做文本分析挖掘肯定离不开自然语言处理，以前就完全掌握过stanford的NLP工具包，里面是非常强大的，特别其支持多语言的自然语言处理，对话题模型、实体关系挖掘都有现成的产品。

看到网上有人做了spark + NLP结合的东东，于是自己也想试验一下。利用stanford nlp 3.6.0最新的进行了测试，对20news的文章进行命名实体抽取实验，这个过程还是非常简单的，其原理就是将每个文档进行句子划分，再对每个句子(RDD)进行句子中的命名实体抽取。
val entities = splitSentences.map({ case (fileName, content) => (fileName, NLPTools.classifier.getEntities(content.map(_.word()).mkString(" ")))})
.flatMap({ case (fileName, list) => list.map(x => (fileName, x))}).groupByKey

这样的话，其实可以将getEntities换成其它的NLP工具都可以实现的。

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
基于spark的自然语言处理包集成和测试(命名实体识别)

做文本分析挖掘肯定离不开自然语言处理，以前就完全掌握过stanford的NLP工具包，里面是非常强大的，特别其支持多语言的自然语言处理，对话题模型、实体关系挖掘都有现成的产品。看到网上有人做了spark + NLP结合的东东，于是自己也想试验一下。利用stanford nlp 3.6.0最新的进行了测试，对20news的文章进行命名实体抽取实验，这个过程还是非常简单的，其原理就是将每个文档
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。