jieba中文分词应用

最新推荐文章于 2024-04-12 16:21:59 发布

阳光下的小白菜

最新推荐文章于 2024-04-12 16:21:59 发布

阅读量933

点赞数 1

分类专栏：文件处理文章标签： python 结巴分词

本文链接：https://blog.csdn.net/kanon122500000/article/details/57115505

版权

文件处理专栏收录该内容

7 篇文章 0 订阅

订阅专栏

应用结巴分词工具对某文件进行中文分词。

具体方法如下：

# -*- coding:utf-8 -*-
import jieba
# 加载自定义字典，字典里面的专有名词在分词时就不会被切割
jieba.load_userdict(r"dict.txt")
fileout = open("abstract.txt", "r")
filein = open("cut_result.txt", "w")

for line in fileout:
    seglist = jieba.cut(line)
    for seg in seglist:
    filein.write(seg.encode("gbk") + " ")
    filein.write("\n")

filein.close()
fileout.close()

扩展

jieba.cut方法接受两个输入参数: 1) 第一个参数为需要分词的字符串 2）cut_all参数用来控制是否采用全模式
jieba.cut_for_search方法接受一个参数：需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词，粒度比较细

import jieba
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print "Full Mode:", "/ ".join(seg_list)  # 全模式
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print "Default Mode:", "/ ".join(seg_list)  # 精确模式
seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print ", ".join(seg_list)
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print ", ".join(seg_list)

Output:
【全模式】: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
【精确模式】: 我/ 来到/ 北京/ 清华大学
【新词识别】：他, 来到, 了, 网易, 杭研, 大厦 (此处，“杭研”并没有在词典中，但是也被Viterbi算法识别出来了)
【搜索引擎模式】：小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造