hive UDF 提取文本中的国家名

最新推荐文章于 2022-10-24 16:54:29 发布

a_step_further

最新推荐文章于 2022-10-24 16:54:29 发布

阅读量1.9k

点赞数 1

分类专栏：文本挖掘文章标签： UDF hive 文本分析

本文链接：https://blog.csdn.net/a_step_further/article/details/50734290

版权

本文介绍了如何在Hive中创建自定义UDF以提取文本中的国家名称。方法包括分词获取地区名，然后从HDFS上的文件加载国家名集合进行匹配，以确定是否为国家名。

摘要由CSDN通过智能技术生成

要提取文本中的国家名，我的思路是：

1. 先分词，提取出地区名

2. 将国家名通过外部文件的形式读入HASHSET

3. 对第1步中提取的地区名到2中的HASESET进行查询，如果有，则返回

当UDF需要读取外部文件时，一种方法是在注册函数时用add file 先将文件上传，但这条路我尝试之后没有走通；第二种方法就是把外部文件先上传到HDFS的一个路径上，再在UDF逻辑中直接读取HDFS上的文件，该方法尝试通过了。源代码记录如下：

import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.seg.Segment;
import com.hankcs.hanlp.seg.common.Term;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FSDataInputStream;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.io.Text;

import java.io.*;
import java.util.HashSet;
import java.util.List;
import java.util.regex.Pattern;

public class extractCountryName extends UDF {
    public Text evaluate(Text inputStr){
        if(inputStr == null) return null;
        Text res