Spark做词性标注遇到的问题及解决方法

最新推荐文章于 2022-07-13 16:32:10 发布

VIP文章 thriving_fcl

最新推荐文章于 2022-07-13 16:32:10 发布

阅读量1.3k

点赞数

分类专栏： Data 文章标签： spark

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/thriving_fcl/article/details/78089702

版权

在用spark做中文分词、词性标注的时候遇到了一些问题，记录一下场景及解决方法。

场景是这样的，我希望用spark做词性标注，这可以用jieba分词的POSTokenizer，本来只要集群的每个节点上的pyspark包路径都安装jieba就可以了。但问题在于，我需要用自定义的词典创建Tokenizer，目的是想令Tokenizer只切出词典中有的词，其他的词都过滤。起初的方案是在client 模式的driver program代码里用本地词典路径初始化Tokenizer，然后把这个Tokenizer对象绑定到需要传递给rdd.map的函数中，代码大概是

from functools import partial
from jieba import Tokenizer

def func(text, tokenizer):
    tokenizer.cut(text)
    ...

tokenizer = Tokenizer(local_dict_path)
func_bind_tokenizer = partial(func, tokenizer=tokenizer)

rdd.map(func_bind_tokenizer)

不过这种方法是行不通的，原因是spark需要把

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
Spark做词性标注遇到的问题及解决方法

在用spark做中文分词、词性标注的时候遇到了一些问题，记录一下场景及解决方法。
复制链接

扫一扫

专栏目录

thriving_fcl CSDN认证博客专家 CSDN认证企业博客

码龄8年

26: 原创

73万+: 周排名

163万+: 总排名

38万+: 访问

: 等级

2540: 积分

168: 粉丝

168: 获赞

203: 评论

362: 收藏

私信

关注

热门文章

分类专栏

最新评论

用于文本相似的Siamese Network
夏日流萤: 为什么L-低于m就设为0，而L+低于m不用设为0呢？
TensorFlow 模型保存/载入的两种方法
信号处理学渣: 谢谢博主分享，想问下，第二种方法好像缺很多代码？那些尺寸都需要给一些初值吧？其次，没有训练数据貌似，最后，train_op也没定义吧？想问下有人给具体数据、给完整的代码么？
Tensorflow实现卷积神经网络，用于人脸关键点识别
qq_44940657: 你好，你找到了吗？能不能也给我
Spark Partition
荒-于嬉: rdd计算的最小单元,RDD具备计算能力吗?我百度的好多说他只是一个数据集,我理解的他在spark中的位置更类似于一个数据源,所有的executor都是从RDD获取数据的.
FastText 文本分类使用心得
yifanrensheng: 那是多标签

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。