Spark中使用HanLP分词

最新推荐文章于 2024-07-24 04:41:39 发布

云聪

最新推荐文章于 2024-07-24 04:41:39 发布

阅读量4.4k

点赞数 2

分类专栏： Spark 自然语言处理文章标签： spark hdfs HanLP

本文链接：https://blog.csdn.net/l294265421/article/details/72932042

版权

Spark 同时被 2 个专栏收录

6 篇文章 0 订阅

订阅专栏

自然语言处理

3 篇文章 0 订阅

订阅专栏

1.将HanLP的data(包含词典和模型)放到hdfs上，然后在项目配置文件hanlp.properties中配置root的路径，比如：
root=hdfs://localhost:9000/tmp/

2.实现com.hankcs.hanlp.corpus.io.IIOAdapter接口：

    public static class HadoopFileIoAdapter implements IIOAdapter {

        @Override
        public InputStream open(String path) throws IOException {
            Configuration conf = new Configuration();
            FileSystem fs = FileSystem.get(URI.create(path), conf);
            return fs.open(new Path(path));
        }

        @Override
        public OutputStream create(String path) throws IOException {
            Configuration conf = new Configuration();
            FileSystem fs = FileSystem.get(URI.create(path), conf);
            OutputStream out = fs.create(new Path(path));
            return out;
        }
    }

3.设置IoAdapter，创建分词器：

private static Segment segment;

static {
    HanLP.Config.IOAdapter = new HadoopFileIoAdapter();
    segment = new CRFSegment();
}

然后，就可以在Spark的操作中使用segment进行分词了。

云聪

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录