如何用C语言(VisualStudio)调用NLPIR进行中文分词

如何用C语言(VisualStudio)调用NLPIR进行中文分词

  (2014-06-12 13:52:14)
标签: 

nlpir

 

中文分词

分类: 中文分词
做的一些项目需要使用到中文分词工具。经过多方测试,觉得NLPIR是进行中文分词的首选。由张华平老师开发,开源,支持c、java,相对易用,效果一流。下载地址: http://ictclas.nlpir.org/

我经常用matlab,sas,python,但没有专业的计算机背景,所以一开始尝试着如何将NLPIR使用起来,着实摸索了很久,现将流程记录下来,方便大家及自己日后查阅。因为会一点点的c语言,所以选择使用c语言调用NLPIR。下面从如何使用VisualStudio开始讲起(因为一开始来年vs都不知道怎么用...)
 

 
  • 1.打开vs之后,按照下面的方式新建project。新建的工程名是text-segmentation。建好之后在你选择的那个目录会出现一个text-segmentation文件夹。
如何用C语言(VisualStudio)调用NLPIR进行中文分词

如何用C语言(VisualStudio)调用NLPIR进行中文分词

  • 2.从nlpir官网下载相关资源,这里下载的是2013版本。下载地址:http://ictclas.nlpir.org/upload/20140324095815_ICTCLAS2014.rar

  • 3.将下载文件解压缩,找到其中的Data文件夹、bin文件夹中的NLPIR.dll文件、include文件夹中的NLPIR.h文件、lib文件夹中的NLPIR.lib文件,将这四个东西复制到刚刚的text-segmentation文件夹中的text-segmentation文件夹下,如下效果:
  • 如何用C语言(VisualStudio)调用NLPIR进行中文分词
    4.点击text-segmentation文件夹下的text-segmentation.sln,在vs中打开这个项目。按照如下方式将NLPIR.h文件加入到头文件中。
如何用C语言(VisualStudio)调用NLPIR进行中文分词

  • 5.点击project -> properties(快捷键ALT + F7),按照下图所示的进行设置。别问我为什么这么设置,我也不懂,摸索了半天才摸索出来的,不这么设置就是搞不定。如何用C语言(VisualStudio)调用NLPIR进行中文分词
    6.在source里面新建程序新建c++源程序
如何用C语言(VisualStudio)调用NLPIR进行中文分词
  • 7.接下来就可以在这里写代码了,下面附上一段我的代码作为例子。最关键的是前面的函数头部分,可以直接抄过去。
#ifndef OS_LINUX
#include
#pragma comment(lib, "NLPIR.lib") 
#endif

#include
#include
#include
#include
#include  
#include "NLPIR.h"
#include

using namespace std;


void IfInit();//判断是否已经成功初始化
void IfExit();//是否成功退出

int main()
{
IfInit();//初始化程序
NLPIR_SetPOSmap(ICT_POS_MAP_SECOND);

int nitems;//
nitems=NLPIR_ImportUserDict("H:\\sentence\\UserDict_manual.txt"); 
NLPIR_SaveTheUsrDic();
cout<<"import "<<nitems<<" words"<<endl;

//NLPIR_AddUserWord("A股");
//NLPIR_AddUserWord("沪指");

//int i;
//char s[100];
//char s2[100];
//ifstream infile;
infile.open("H:\\sentence\\files to break word.txt");
//infile.open("C:\\Users\\pc\\Desktop\\temp\\file_to.txt");
//ifstream infile2;
infile2.open("H:\\sentence\\files after break word.txt");
//infile2.open("C:\\Users\\pc\\Desktop\\temp\\file_after.txt");
//for(i=0;i<717696;i++)//1798
//{
// if (i<350000) 
// {
// infile.getline(s,100);
// infile2.getline(s2,100);
// continue;
// }
// infile.getline(s,100);
// infile2.getline(s2,100);
// NLPIR_FileProcess(s,s2,0);
// cout<<i+1<<endl;
//}



NLPIR_FileProcess("try.txt","try_result.txt",0);



IfExit();//退出
system("pause");
return 0;
}

void IfInit()//判断是否已经成功初始化
{
if(!NLPIR_Init(0,UTF8_CODE))
{
cout<<"Init fails"<<endl;
exit(EXIT_FAILURE); 
}
else 
{
cout<<"Init ok"<<endl;
}
}
void IfExit()//是否成功退出
{
if(!NLPIR_Exit())
{
cout<<"Exit fails"<<endl;
}
else 
{
cout<<"Exit ok"<<endl;
}
}
  • 8.若函数报错,可以去text-segmentation文件夹中的text-segmentation文件夹下查看log文件。常见的错误是Initial Fail,这很可能是因为license过期了,解决方法可见 http://blog.csdn.net/heyu158/article/details/17525753   。但是有的时候所有版本都是过期(就是这么坑爹),这个时候就打电话到张华平老师的办公室去催催吧。。。
    最近发现这个论坛上 http://www.bigdatabbs.com/forum.php经常会放出关于NLPIR的更新以及最新消息,张华平老师也会在这个论坛上回复。所以有问题的话可以去这个论坛看看

 

 ---------------------------------------------

reference:

http://hi.baidu.com/doubleysl/item/9176c689b5683b2f110ef324

---------------------------------------------

发现的另外几篇内容近似的博客,写的比我的好,供参考:

http://blog.csdn.net/wangxinginnlp/article/details/17300373

http://blog.csdn.net/wangxinginnlp/article/details/8792667


  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值