将获得的中文数据集进行jieba分词

最新推荐文章于 2022-06-14 12:21:25 发布

置顶 cs_yougar

最新推荐文章于 2022-06-14 12:21:25 发布

阅读量1.2k

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/caicai779369786/article/details/104342178

版权

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

如题，可供选择的分词工具有很多种，下面我将使用jieba分词进行中文分词。

待分词的文件：

话不多说，上代码：

import jieba.analyse
with open('F:\csdn\csdn.txt',encoding='gbk') as f:    //此处可以改为自己需要分词的文件，更改地址即可
    document = f.read()
    document_cut = jieba.cut(document)
    result = ' '.join(document_cut)
    with open('F:\csdn\mi.txt', 'w',encoding="utf-8") as f2:  //此处为即将写入的分好词的文件
        f2.write(result)

上结果：

jieba简单用法：

import jieba
sentences = jieba.cut(u"我喜欢唱跳rap篮球")  
result='\\'.join(sentences)
print(result)
if __name__ == "__main__":
    pass

运行结果：我\\喜欢\\唱\\跳\\rap\\篮球

推荐几位优秀博主的博客：比较详细的Jieba分词应用

https://blog.csdn.net/FontThrone/article/details/72782499

https://blog.csdn.net/Yellow_python/article/details/80559586

cs_yougar

关注

0
点赞
踩
12

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录