jieba分词(添加分词词典)

为了分词效果更好,可以自己建立分词词典加入到jieba词典中:

jieba.load_userdict()

()内为分词词典路径+名称。

写一个分词的小函数:

import jieba
def preprocess(path):
    text = ""
    fenci = open(path, "r", encoding="utf-8").read()
    jieba.load_userdict("C:/Users/idmin/Desktop/dict.txt")
    fenci = jieba.cut(fenci)
    #fenci = "/".join(fenci)
    for word in fenci:
        text=text+word
    return text
print(preprocess('C:/Users/idmin/Desktop/one.txt'))

'''
#或以下程序
import jieba
def preprocess(path):
    text = ""
    fenci = open(path, "r", encoding="utf-8").read()
    jieba.load_userdict("C:/Users/idmin/Desktop/dict.txt")
    fenci = jieba.cut(fenci)
    fenci = "/".join(fenci)
    #for word in fenci:
    #    text=text+word
    return fenci
print(preprocess('C:/Users/idmin/Desktop/one.txt'))
'''

one.txt内容为:

分词词典dict.txt内容为:

分词词典的格式要为“utf-8”.(另存为即可。)

加入分词词典前,分词效果如下:

/你好/您好/python/中/jieba/分词/快速/入门/落叶/数据挖掘/新浪/博客

加入后,效果为:

/你好/您好/python/中/jieba/分词/快速入门/落叶/数据挖掘/新浪/博客

“快速入门”没有被分开哦。

 

  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值