python jieba

最新推荐文章于 2023-06-25 09:53:03 发布

tsf_1993

最新推荐文章于 2023-06-25 09:53:03 发布

阅读量850

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/baidu_26550817/article/details/77244850

版权

python 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

# encoding=utf-8
import jieba

seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式

seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式

seg_list = jieba.cut("他来到了网易杭研大厦")  # 默认是精确模式
print(", ".join(seg_list))

seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所，后在日本京都大学深造")  # 搜索引擎模式
print(", ".join(seg_list))

Full Mode: 我/ 来到/ 北京/ 清华/ 清华大学/ 华大/ 大学
Default Mode: 我/ 来到/ 北京/ 清华大学
他, 来到, 了, 网易, 杭研, 大厦
小明, 硕士, 毕业, 于, 中国, 科学, 学院, 科学院, 中国科学院, 计算, 计算所, ，, 后, 在, 日本, 京都, 大学, 日本京都大学, 深造

#加载停用词典
def createstoplist(stoppath):
    print('load stopwords...')
    stoplist=[line.strip() for line in codecs.open(stoppath,'r',encoding='utf-8').readlines()]
    stopwords={}.fromkeys(stoplist)
    return stopwords


def isAlpha(word):
    try:
        return word.encode('ascii').isalpha()
    except UnicodeEncodeError:
        return False

#-*- coding:utf-8 -*-
import jieba
import jieba.analyse
import jieba.posseg as pseg
def cut_words(sentence):
    #print sentence
    return " ".join(jieba.cut(sentence))
f = open("wiki.zh.text.jian",encoding='utf-8')
target = open("wiki.zh.text.jian.segAll", 'a+',encoding='utf-8')
print ('open files')
line = f.readlines(10000)
while line:
    curr = []
    for oneline in line:
        curr.append(oneline)
    after_cut = map(cut_words, curr)
    target.writelines(after_cut)
    line = f.readlines(10000)
f.close()
target.close()

tsf_1993

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python jieba

# encoding=utf-8import jiebaseg_list = jieba.cut("我来到北京清华大学", cut_all=True)print("Full Mode: " + "/ ".join(seg_list)) # 全模式seg_list = jieba.cut("我来到北京清华大学", cut_all=False)print("Default Mode: " + "
复制链接

扫一扫

专栏目录