python nlpir_NLPIR(ICTCLAS 2013)分词工具Python封装

本文介绍了如何使用SWIG将NLPIR(ICTCLAS 2013)的C++接口转换为Python,包括编写interface文件、接口转换、编译代码和编写PyNLPIR.py模块,从而在Python中方便地进行中文分词操作。
摘要由CSDN通过智能技术生成

本文只适用于python-nlpir V1.0版本,有关V2.0版本详情参照项目源代码。

python-nlpir是NLPIR中文分词工具的Python封装,利用SWIG完成C++到python的接口转换。

NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;是当前最好的中文分词工具之一。

1、使用SWIG进行接口转换

SWIG是个帮助使用C或者C++编写的软件能与其它各种高级编程语言进行嵌入联接的开发工具。SWIG能应用于各种不同类型的语言包括常用脚本编译语言例如Perl, PHP, Python, Tcl, Ruby and PHP。支持语言列表中也包括非脚本编译语言,例如C#, Common Lisp (CLISP, Allegro CL, CFFI, UFFI), Java, Modula-3, OCAML以及R,甚至是编译器或者汇编的计划应用(Guile, MzScheme, Chicken)。SWIG普遍应用于创建高级语言解析或汇编程序环境,用户接口,作为一种用来测试C/C++或进行原型设计的工具。SWIG还能够导出XML或Lisp s-expressions格式的解析树。SWIG可以被自由使用,发布,修改用于商业或非商业中。

1)编写interface文件

%module NLPIR

%{

#define SWIG_FILE_WITH_INIT

#include "NLPIR.h"

%}

#define POS_MAP_NUMBER 4

#define ICT_POS_MAP_FIRST 1

#define ICT_POS_MAP_SECOND 0

#define PKU_POS_MAP_SECOND 2

#define PKU_POS_MAP_FIRST 3

#define POS_SIZE 40

#define GBK_CODE 0

#define UTF8_CODE GBK_CODE+1

#define BIG5_CODE GBK_CODE+2

#define GBK_FANTI_CODE GBK_CODE+3

bool NLPIR_Init(const char * sDataPath=0,int encode=GBK_CODE,const char*sLicenceCode=0);

bool NLPIR_Exit();

const char * NLPIR_ParagraphProcess(const char *sParagraph,int bPOStagged=1);

const result_t * NLPIR_ParagraphProcessA(const char *sParagraph,int *pResultCount,bool bUserDict=true);

int NLPIR_GetParagraphProcessAWordCount(const char *sParagraph);

void NLPIR_ParagraphProcessAW(int nCount,result_t * result);

double NLPIR_FileProcess(const char *sSourc

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值