在使用nlpir工具做分词的时候想导入自定义词典,结果在调用nlpir.ImportUserDict函数时报错:
Traceback (most recent call last):
File "F:/custom/src/info_extraction.py", line 37, in pos_tagging
nir.nlpir.ImportUserDict(filename)
ctypes.ArgumentError: argument 1: <class 'TypeError'>: wrong type
在网上搜了一下没有很好的针对此问题的解决方案。于是看了下源码,发现此函数的定义:
ImportUserDict = get_func('NLPIR_ImportUserDict', [c_char_p], c_uint)
查看get_func函数,其中[c_char_p]即为参数的类型,因此我们传入的路径字符串作为传参定然是不符合[c_char_p]的要求
研究一下c_char_p这个东东,在一篇博客中发现一个试验:
>>> s = c_char_p(b"good")
>>> s = c_char_p("good")
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
TypeError: string or integer address expected instead of str instance
看来直接传入str是不合适的,需要传入byte类型,于是将
userdict = "userdict.txt"加上b变成userdict = b"userdict.txt"
再次运行没有报错,完美解决