如题,可供选择的分词工具有很多种,下面我将使用jieba分词进行中文分词。
待分词的文件:
话不多说,上代码:
import jieba.analyse with open('F:\csdn\csdn.txt',encoding='gbk') as f: //此处可以改为自己需要分词的文件,更改地址即可 document = f.read() document_cut = jieba.cut(document) result = ' '.join(document_cut) with open('F:\csdn\mi.txt', 'w',encoding="utf-8") as f2: //此处为即将写入的分好词的文件 f2.write(result)
上结果:
jieba简单用法:
import jieba sentences = jieba.cut(u"我喜欢唱跳rap篮球") result='\\'.join(sentences) print(result) if __name__ == "__main__": pass
运行结果:我\\喜欢\\唱\\跳\\rap\\篮球
推荐几位优秀博主的博客:比较详细的Jieba分词应用
https://blog.csdn.net/FontThrone/article/details/72782499
https://blog.csdn.net/Yellow_python/article/details/80559586