最近因需要ictclas,特意研究了一下,并进行试用。由于开发环境为C#平台,因此在网上找到了吕震宇的SharpICTCLAS1.0,发现其存在两个问题,首先是其不支持多线程,第二个是SharpICTCLAS的效率实在太低,在我2.4的主频下,单线程的分词速度为12-13kB/s。
后来想到用C#调用C++版本的ICTCLAS,因此从官网上下载了ictclas2011win_32 c语言版本,按照里面提供的说明文档,发现运行时会出现异常“尝试读取或写入受保护的内存。这通常指示其他内存已损坏”。搞了好半天也没弄明白是怎么回事,后来在查看其提供的头文件时发现说明文档提供的接口及示存在严重错误,竟然将接口的参数顺序写错了。于是按照头文件的正确参数顺序,先更改导入DLL的语句
public static extern int ICTCLAS_ParagraphProcessAW(String sParagraph, [Out, MarshalAs(UnmanagedType.LPArray)]result_t[] result,eCodeType eCT, int bPOSTagged);
然后在使用更改ICTCLAS_ParagraphProcessAW的参数顺序,这样就运行正常了。
经过测试发现C#调用c++写的DLL分词速度达到600-700KB/s,速度提升了几十倍,吼吼。
于是我将文档中所示例的所有接口与头文件中定义相比较,发现ICTCLAS_ParagraphProcess ,ICTCLAS_ParagraphProcessA ,ICTCLAS_FileProcess 接口的说明及示例均存在错误。