目前,我需要这样一个功能:需要使用C++的代码调用python中的结巴分词。
在此处,我使用的python是win32版本的。
第一步:从官网上下载win32版本的python。进行安装
第二步:获取安装的python的位置。
在doc窗口下,输入以下命令,可以查询到python的安装路径
python
import sys
print(sys.executable)
路径显示:
C:\Users\admn\AppData\Local\Programs\Python\Python35\python.exe
第三步:根据python安装路径获取头文件,dll,lib
1:头文件
采用有"Python.h"的头文件的文件夹,放到当前你的项目中
2:dll,lib使用
**因为python的dll和lib只有release版本下的,所以需要自己复制一份,重新命名成debug版本的。
因此,就有以下两个dll
python35_d.dll python35.dll
lib库一样
python35_d.lib python35.lib
第四步:写jieba.py代码
import jieba
import jieba.posseg as pseg
'''
对一句话进行分词,全模式
'''
def cutstring_QuanMode(str):
seg_list = jieba.cut(str , cut_all = True)
str_result= " ".join(seg_list)
return str_result
'''
对一句话分词,精准模式,默认就是精准模式
'''
def cutstring_JingZhunMode(str):
seg_list = jieba.cut(str , cut_all = False)
str_result= " ".join(seg_list)
return str_result
'''
对一句话分词,搜索引擎模式
'''
def cutstring_SearchMode(str):
seg_list = jieba.cut_for_search(str)
str_result= " ".join(seg_list)
return str_resul
'''
添加用户自定义的词典
词典格式:一行一词,每行三个部分。用空格隔开
词语 词频(可省略) 词性(可省略)
'''
def addUserDict(dictName):
jieba.load_userdict(dictName)
'''
显示一句话的词性
'''
def cutstringWordPart(str):
seg_list = pseg.cut(str)
print('seg_list = ',seg_list)
cutText = ''
for word,flag in seg_list:
cutText += word + flag
print('%s %s' %(word,flag))
print('cutText = ',cutText)
'''
if __name__ == "__main__":
Text = '真是好久好久没来哈皮娜拉野生动物园了,记忆里还是小时候三四年级学校组织春游去的银河系'
#添加自定义词典
addUserDict('UserDict.txt')
strText = cutstring_JingZhunMode(Text)
print('strText = ', strText)
cutstringWordPart(Text)
'''
当前给出的代码,取消 main函数的注释,可以直接运行。但必须要有UserDict.txt自定义词典才可以。
使用python编译工具运行时,发现了以下问题
有用红线标注的内容,说明:在使用结巴分词时,需要加载jieba.cache这个文件。如果没有当前这个文件是运行不成功的。
这个我已经测试过。
第五步:使用C++程序进行调用
和例子(一)的方式一致。在此,我就不进行细致的写了,如有需要可以看例子(一)
在使用C++调用python的结巴分词时,一般都是用中文进行分词。
在此,就会有一个问题:传入的参数是应该用什么格式传入?用什么格式接收?
我会在下面文章中进行详细解说。