jieba分词和高频词提取示例代码

import jieba
import jieba.analyse as aly


# 中文 分词工具jieba
sent = '中文分词是文本处理不可或缺的一步!'
seglist = jieba.cut(sent, cut_all=True)
print("全模式", '/'.join(seglist))
# 全模式 中文/分词/是/文本/文本处理/本处/处理/不可/不可或缺/或缺/的/一步//
seglist = jieba.cut(sent)
print("精确模式", '/'.join(seglist))
# 精确模式 中文/分词/是/文本处理/不可或缺/的/一步/!
seglist = jieba.cut_for_search(sent)
print("搜索引擎模式", '/'.join(seglist))
# 中文/分词/是/文本/本处/处理/文本处理/不可/或缺/不可或缺/的/一步/!

# 高频词读取  TF/IDF

content = "自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。" \
          "因此,自然语言处理是与人机交互的领域有关的。在自然语言处理面临很多挑战,包括自然语言理解," \
          "因此,自然语言处理涉及人机交互的面积。在NLP诸多挑战涉及自然语言理解,即计算机源于人为或自然语言输入的意思," \
          "和其他涉及到自然语言生成."

# 加载自定义idf词典\n",
aly.set_idf_path('D:\\yangyang\\spy\\nltksample\\103\\idf.txt.
  • 3
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值