将获得的中文数据集进行jieba分词

如题,可供选择的分词工具有很多种,下面我将使用jieba分词进行中文分词。

待分词的文件:

 话不多说,上代码:

import jieba.analyse
with open('F:\csdn\csdn.txt',encoding='gbk') as f:    //此处可以改为自己需要分词的文件,更改地址即可
    document = f.read()
    document_cut = jieba.cut(document)
    result = ' '.join(document_cut)
    with open('F:\csdn\mi.txt', 'w',encoding="utf-8") as f2:  //此处为即将写入的分好词的文件
        f2.write(result) 

上结果:

 

jieba简单用法:

import jieba
sentences = jieba.cut(u"我喜欢唱跳rap篮球")  
result='\\'.join(sentences)
print(result)
if __name__ == "__main__":
    pass

运行结果:我\\喜欢\\唱\\跳\\rap\\篮球 

推荐几位优秀博主的博客:比较详细的Jieba分词应用

https://blog.csdn.net/FontThrone/article/details/72782499

https://blog.csdn.net/Yellow_python/article/details/80559586

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值