Ansj 分词使用

最新推荐文章于 2024-01-29 13:28:39 发布

skillking2

最新推荐文章于 2024-01-29 13:28:39 发布

阅读量2k

点赞数

分类专栏： NLP实践

NLP实践专栏收录该内容

1 篇文章 0 订阅

订阅专栏

一、 Ansj

Ansj 是一个开源的 Java 中文分词工具，基于中科院的 ictclas 中文分词算法，比其他常用的开源分词工具（如mmseg4j）的分词准确率更高。

Ansj中文分词是一款纯Java的、主要应用于自然语言处理的、高精度的中文分词工具，目标是“准确、高效、自由地进行中文分词”，可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域，支持行业词典、用户自定义词典。

Ansj 是一个基于n-Gram+CRF+HMM的中文分词的java实现。目前实现了中文分词.词性识别. 中文姓名识别 . 用户自定义词典,关键字提取，自动摘要，关键字标记等功能，可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。

1. 文档、项目地址

项目的github地址：https://github.com/NLPchina/ansj_seg
项目的文档地址：http://nlpchina.github.io/ansj_seg/

2. 配置maven

在maven项目的pom中配置ansj的dependency：

<dependency>
    <groupId>org.ansj</groupId>
    <artifactId>ansj_seg</artifactId>
    <version>5.1.1</version>
</dependency>

3.使用实例

对于分词来说，最重要的任务无非就是拿到切分以后的结果(词)。直接看代码：

import org.ansj.domain.Result;
import org.ansj.domain.Term;
import org.ansj.splitWord.analysis.ToAnalysis;
import java.util.*;

public class AnsjTest {

    public static void test() {
        //只关注这些词性的词
        Set<String> expectedNature = new HashSet<String>() {{
            add("n");add("v");add("vd");add("vn");add("vf");
            add("vx");add("vi");add("vl");add("vg");
            add("nt");add("nz");add("nw");add("nl");
            add("ng");add("userDefine");add("wh");
        }};
        String str = "欢迎使用ansj_seg,(ansj中文分词)在这里如果你遇到什么问题都可以联系我.我一定尽我所能.帮助大家.ansj_seg更快,更准,更自由!" ;
        Result result = ToAnalysis.parse(str); //分词结果的一个封装，主要是一个List<Term>的terms
        System.out.println(result.getTerms());

        List<Term> terms = result.getTerms(); //拿到terms
        System.out.println(terms.size());

        for(int i=0; i<terms.size(); i++) {
            String word = terms.get(i).getName(); //拿到词
            String natureStr = terms.get(i).getNatureStr(); //拿到词性
            if(expectedNature.contains(natureStr)) {
                System.out.println(word + ":" + natureStr);
            }
        }
    }

    public static void main(String[] args) {
        test();
    }
}

本文参考并摘自：
https://blog.csdn.net/bitcarmanlee/article/details/53607776?utm_source=blogxgwz0
https://blog.csdn.net/blogdevteam/article/details/8148451

skillking2

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
Ansj 分词使用

一、 AnsjAnsj 是一个开源的 Java 中文分词工具，基于中科院的 ictclas 中文分词算法，比其他常用的开源分词工具（如mmseg4j）的分词准确率更高。Ansj中文分词是一款纯Java的、主要应用于自然语言处理的、高精度的中文分词工具，目标是“准确、高效、自由地进行中文分词”，可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域，支持行业词典、用户...
复制链接

扫一扫