上一篇博文中,我们跑通了分词工具的示例文件,下面我们就要开始用分词工具尝试对我们之前准备的搜狗语料库里的文本文件进行分词了。
首先我们来看nlpir.py文件代码:
能看出来, 只要我们把想要分词的中文文章以字符串的形式传递给p,然后通过调用相关的函数就能实现分词,并且分词结果可以输出。
这时,就要考虑python读入和输出文本文件的问题了。
根据廖雪峰老师的教程:http://www.liaoxuefeng.com/wiki/001374738125095c955c1e6d8bb493182103fac9270762a000/001386820066616a77f826d876b46b9ac34cb5f34374f7a000