中科院分词系统NLPIR的JAVA代码（批量读取文件）

最新推荐文章于 2024-09-14 18:46:05 发布

蔡艺君小朋友

最新推荐文章于 2024-09-14 18:46:05 发布

阅读量357

点赞数

分类专栏： JAVA 文章标签： NLPIR java

本文链接：https://blog.csdn.net/qq_32482091/article/details/80685142

版权

准备工作：

最新NLPIR分词系统下载包http://ictclas.nlpir.org/downloads
授权文件更新：https://github.com/NLPIR-team/NLPIR/tree/431b6351f30ed7d606ac50fde1f4456c596998df/License或者https://github.com/NLPIR-team/NLPIR/tree/master/License
在eclipse中导入中科院分词系统下载包中sample->JnaTest_NLPIR项目，优化NlpirTest.java文件代码。
其中，官方原始demo代码需要更改的地方：

CLibrary Instance = (CLibrary) Native.loadLibrary(
                "D:\\tools\\NLPIR\\lib\\win64\\NLPIR", CLibrary.class);

中路径改为自己操作系统的.dll和.lib的上一级目录，并加上NLPIR，不要后缀名

public static void main(String[] args) throws Exception {
String argu = "D:\\tools\\NLPIR";

路径改为Data文件夹的上一级目录

☆注：遇到初始化问题，如果是文件过期问题，在上面链接中下载对应的最新授权文件,并替换掉项目里Data文件下对应的授权文件；如果是配置问题，可能是导入的项目路径中有中文。

本代码可实现功能：

普通批量分词
添加用户词典txt后批量
批量提取关键字

package code;

import java.io.BufferedInputStream;
import java.io.BufferedReader;
import java.io.ByteArrayInputStream;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.OutputStream;
import java.io.PrintWriter;