jieba模块的主要功能

import jieba
import jieba.analyse
import jieba.posseg as pseg

#jieba的主要功能
#1,分词
text = '''1月17日,上虞区委书记陶关锋在全区机构改革动员大会上宣布,国家级杭州湾上虞经济技术开发区和省级上虞经济开发区两大开发区正式整合。开发区将更加聚焦规划、建设、招商等“头部”职能,全力打造“万亩千亿”产业大平台。这是一项重构上虞经济版图的大事,是一项事关上虞未来发展的历史性重大决策,也是上虞竞雄大湾区时代站位更高的战略性谋划。
  经济总量占全区七成左右的两区大平台,一直以来是上虞发展的主阵地排头兵,一直以来充满着产业集群和产城融合的生机和活力,在全国和全省的开发区综合考评中也深具影响力和竞争力。
  时至今日,把握新时代重要战略机遇,两区大平台又迎来了一次全新的聚变,展开了一张更加宏伟的蓝图。整合后的杭州湾上虞经济技术开发区,被赋予了新的使命:打造成为杭州湾大湾区智能智造的大平台、创新发展的新引擎,区域高质量发展的主战场。
  在上虞争当区域高质量发展排头兵的新征程中,开发区强强融合,成为新时代上虞改革开放再出发的又一次历史性选择。
  事实上,整合两大开发区,是区委区政府贯彻落实上级关于开发区平台整合精神的上虞实践,是上虞顺应发展大势和时代要求作出的战略部署。
  新形势新常态下,国务院曾专门发文,鼓励以国家级开发区为主体,整合区位相邻、相近的开发区,加快转型升级创新发展,要求开发区进一步发挥作为改革开放排头兵的作用,形成新的集聚效应和增长动力,引领经济结构优化调整和发展方式转变。
  省委省政府在实施大湾区战略的决策部署中也提出,要加快整合提升各类产业平台,进一步深化改革、扩大开放,再创开发区体制机制新优势。
  而年初召开的市委八届五次全会和市“两会”同样强调,要优化省级以上开发区功能布局,加快打造高质量发展主战场主阵地,为绍兴大步迈向大湾区时代注入强大动力。
  毫无疑问,我们要顺势而为,应势而变,乘势而上,按照生产力布局全面重构区域发展平台,推动资源要素向平台集聚,打造支撑高质量发展大平台。
  放眼当下,在激烈的区域竞争中,各地都在加快做强平台集聚度,提升平台能级,做强平台综合承载力。随着经济转型升级的深入和市场竞争的充分,加上资源、环境、产出对产业提出的新要求,上虞要进一步推进传统产业改造提升、加快实现新旧动能转换,必须全面优化调整生产力空间布局,在大平台建设上求突破,以大平台赢得更多大项目,以大平台承载更多大企业;必须进一步深化平台对外开放和区域合作,全面优化调整创新链空间布局,集聚各类创新要素,积极建立起与沪、杭、甬优势互补的产业创新体系,全面推进大平台建设迈向新的高度。
  在抢抓长三角一体化国家战略机遇、主动对接全省“四大”建设和全市“融杭联甬接沪”战略的大背景下,加速打破原有空间藩篱,整合两大开发区,也契合了上虞拥抱大湾区、迈向高质量发展的现实需要。
  根据机构改革方案,实质整合后,开发区与属地机构的职责边界全面理清,原两大开发区内的规划、建设、招商和科技人才项目引进、财政(融资)、国土等方面职责由杭州湾上虞经济技术开发区管理委员会承担,保留国家级开发区相关职权;原两大开发区内的其他职责分别由杭州湾综合管理办公室和曹娥街道属地承担。
  整合提升,重在做大做强,集中优势,旨在创新发展。'''

result1 = jieba.cut(text,cut_all=True)
result1_ = jieba.cut(text)
result2 = jieba.lcut(text)
result3 = jieba.cut_for_search(text)
result4 = jieba.lcut_for_search(text)
print('cut==>',[r for r in result1])
print('精确模式cut==>',[r_ for r_ in result1_])
print('lcut==>',result2)
print('cut_for_search==>',[res for res in result3])
print('lcut_for_search==>',result4)


#2,添加自定义词典
#jieba.load_userdict('file_name')
#file_name为文件对象或自定义词典的路径,格式和dict.txt一样,一个词一行,一行三部分,词,词频(可省),词性(可省),顺序不可颠倒
#若file_name为路径或二进制打开的文件,则文件必须为utf-8编码
#创建停用词
#这个函数是加载stop word.txt文件。删除停用词,
def stop_word(filepath):
    stop_words = [line.strip() for line in open(filepath,'r',encoding='utf-8').readlines()]
    return stop_words


#3,关键词提取,基于TF-IDF算法的关键词抽取
idf_text= jieba.analyse.extract_tags(text,topK=20,withWeight=True,allowPOS=())
#text为提取的文本,  topK为返回几个TF/IDF权重最大的关键词,默认值为20,
#withWeight为是否一并返回关键词权重值,默认为False
#allowPOS仅包括指定词性的词,默认值为空,既不筛选
print(idf_text)

#基于TextRank算法的关键词抽取
#allowPOS默认值为('ns','n','vn','v')
tr_text = jieba.analyse.textrank(text,topK=20,withWeight=False,allowPOS=('ns','n','vn','v'))
print(tr_text)


#4词性标注
words = pseg.cut(text)
for word,flag in words:
    print(word,flag)


#5,并行分词
#只需要添加这一行代码,内部就会自动并行分词,其余操作跟之前一样
jieba.enable_parallel(4)  #开启并行分词模式,可以指定并行进程数,默认是计算机核数
jieba.disable_parallel()  #关闭并行分词模式


#6,Tokenize返回词语在原文的起始位置
#注意:输入参数只接受unicode
token_text = jieba.tokenize(u'我爱我家')
for token in token_text:
    print(token)
token_text2 = jieba.tokenize(u'我爱我家',mode='search')#搜索模式
for token2 in token_text2:
    print(token2)

输出的所有结果为:

cut==> ['1', '月', '17', '日', '', '', '上虞', '区委', '区委书记', '书记', '陶', '关锋', '在', '全区', '机构', '改革', '动员', '动员大会', '大会', '会上', '宣布', '', '', '国家', '国家级', '杭州', '杭州湾', '上虞', '经济', '技术', '技术开发', '技术开发区', '开发', '开发区', '和', '省级', '上虞', '经济', '开发', '开发区', '两', '大', '开发', '开发区', '正式', '整合', '', '', '开发', '开发区', '将', '更加', '聚焦', '规划', '', '', '建设', '', '', '招商', '等', '', '', '头部', '', '', '职能', '', '', '全力', '打造', '', '', '万亩', '千亿', '', '', '产业', '业大', '大平', '平台', '', '', '这', '是', '一项', '重构', '上虞', '经济', '版图', '的', '大事', '', '', '是', '一项', '事关', '关上', '上虞', '未来', '发展', '的', '历史', '历史性', '重大', '决策', '', '', '也', '是', '上虞', '竞', '雄大', '大湾', '湾区', '时代', '站位', '更', '高', '的', '战略', '战略性', '谋划', '', '\n', '', '', '经济', '经济总量', '总量', '占', '全区', '七成', '左右', '的', '两', '区', '大平', '平台', '', '', '一直', '以来', '是', '上虞', '发展', '的', '主阵地', '阵地', '排头', '排头兵', '', '', '一直', '以来', '充满', '着', '产业', '集群', '和', '产', '城', '融合', '的', '生机', '和', '活力', '', '', '在', '全国', '和', '全省', '的', '开发', '开发区', '综合', '考评', '中', '也', '深', '具', '影响', '影响力', '和', '竞争', '竞争力', '', '\n', '', '', '时至今日', '至今', '今日', '', '', '把握', '新', '时代', '重要', '战略', '机遇', '', '', '两', '区', '大平', '平台', '又', '迎来', '了', '一次', '全新', '的', '聚变', '', '', '展开', '了', '一张', '更加', '宏伟', '的', '蓝图', '', '', '整合', '后', '的', '杭州', '杭州湾', '上虞', '经济', '技术', '技术开发', '技术开发区', '开发', '开发区', '', '', '被', '赋予', '了', '新', '的', '使命', '', '', '打造', '造成', '成为', '杭州', '杭州湾', '大湾', '湾区', '智能', '智', '造', '的', '大平', '平台', '', '', '创新', '新发', '发展', '的', '新', '引擎', '', '', '区域', '高质', '高质量', '质量', '发展', '的', '主战', '主战场', '战场', '', '\n', '', '', '在', '上虞', '争当', '区域', '高质', '高质量', '质量', '发展', '排头', '排头兵', '的', '新', '征程', '中', '', '', '开发', '开发区', '强强', '融合', '', '', '成为', '新', '时代', '上虞', '改革', '改革开放', '开放', '再', '出发', '的', '又', '一次', '历史', '历史性', '选择', '', '\n', '', '', '事实', '事实上', '', '', '整合', '两', '大', '开发', '开发区', '', '', '是', '区委', '区政', '区政府', '政府', '贯彻', '贯彻落实', '落实', '上级', '关于', '开发', '开发区', '平台', '整合', '精神', '的', '上虞', '实践', '', '', '是', '上虞', '顺应', '应发', '发展', '大势', '和', '时代', '要求', '作出', '的', '战略', '战略部', '战略部署', '部署', '', '\n', '', '', '新', '形势', '新', '常态', '下', '', '', '国务', '国务院', '曾', '专门', '发文', '', '', '鼓励', '以', '国家', '国家级', '开发', '开发区', '为主', '主体', '', '', '整合', '区位', '位相', '相邻', '', '', '相近', '的', '开发', '开发区', '', '', '加快', '转型', '升级', '创新', '新发', '发展', '', '', '要求', '开发', '开发区', '进一步', '一步', '发挥', '作为', '改革', '改革开放', '开放', '排头', '排头兵', '的', '作用', '', '', '形成', '新', '的', '集聚', '效应', '和', '增长', '动力', '', '', '引领', '经济', '结构', '优化', '调整', '和', '发展', '方式', '转变', '', '\n', '', '', '省委', '省政府', '政府', '在', '实施', '大湾', '湾区', '战略', '的', '决策', '部署', '中', '也', '提出', '', '', '要', '加快', '整合', '提升', '各类', '产业', '平台', '', '', '进一步', '一步', '深化', '深化改革', '改革', '', '', '扩大', '扩大开放', '开放', '', '', '再创', '开发', '开发区', '体制', '机制', '新', '优势', '', '\n', '', '', '而', '年初', '召开', '的', '市委', '八届', '五次', '全会', '和', '市', '', '', '两会', '', '', '同样', '强调', '', '', '要', '优化', '省级', '以上', '开发', '开发区', '功能', '布局', '', '', '加快', '打造', '高质', '高质量', '质量', '发展', '主战', '主战场', '战场', '场主', '主阵地', '阵地', '', '', '为', '绍兴', '兴大', '大步', '迈向', '大湾', '湾区', '时代', '注入', '强大', '大动', '动力', '', '\n', '', '', '毫无', '毫无疑问', '无疑', '疑问', '', '', '我们', '要', '顺势', '而为', '', '', '应', '势', '而', '变', '', '', '乘势', '乘势而上', '', '', '按照', '照生', '生产', '生产力', '布局', '全面', '重构', '区域', '发展', '展平', '平台', '', '', '推动', '资源', '要素', '向', '平台', '集聚', '', '', '打造', '支撑', '高质', '高质量', '质量', '发展', '大平', '平台', '', '\n', '', '', '放眼', '当下', '', '', '在', '激烈', '的', '区域', '竞争', '中', '', '', '各地', '都', '在', '加快', '做', '强', '平台', '集聚', '度', '', '', '提升', '升平', '平台', '能级', '', '', '做', '强', '平台', '综合', '承载', '承载力', '载力', '', '', '随着', '经济', '转型', '升级', '的', '深入', '和', '市场', '市场竞争', '竞争', '的', '充分', '', '', '加上', '资源', '', '', '环境', '', '', '产出', '对', '产业', '提出', '的', '新', '要求', '', '', '上虞', '要', '进一步', '一步', '推进', '传统', '传统产业', '产业', '改造', '提升', '', '', '加快', 
  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值