spark集群使用hanlp进行分布式分词操作

最新推荐文章于 2022-07-11 23:00:00 发布

qq_33872191

最新推荐文章于 2022-07-11 23:00:00 发布

阅读量534

点赞数

分类专栏：业务需求文章标签： hanlp spark 分词

本文链接：https://blog.csdn.net/qq_33872191/article/details/84963310

版权

本文介绍了如何在Spark集群上利用HanLP进行分布式分词操作，主要包括实现hankcs.hanlp.corpus.io.IIOAdapter接口以及修改配置文件，将数据源指向HDFS并指定自定义的IOAdapter类，从而实现分词功能。

摘要由CSDN通过智能技术生成

分两步：

第一步：实现hankcs.hanlp/corpus.io.IIOAdapter

public class HadoopFileIoAdapter implements IIOAdapter {

    @Override
    public InputStream open(String path) throws IOException {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(URI.create(path), conf);
        return fs.open(new Path(path));
    }

    @Override
    public OutputStream create(String path) throws IOException {
        Configuration conf = new Configuration();
        FileSystem fs = FileSystem.get(URI.create(path), conf);
        OutputStream out = fs.create(new Path(path));
        return out;
    }
}

第二步：修改配置文件。root为hdfs上的数据包，把IOAdapter改为咱们上面实现的类

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

qq_33872191

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
spark集群使用hanlp进行分布式分词操作

分两步：第一步：实现hankcs.hanlp/corpus.io.IIOAdapterpublic class HadoopFileIoAdapter implements IIOAdapter { @Override public InputStream open(String path) throws IOException { Configur...
复制链接

扫一扫