jieba分词和高频词提取示例代码

最新推荐文章于 2024-05-20 09:29:45 发布

光英的记忆

最新推荐文章于 2024-05-20 09:29:45 发布

阅读量2.7k

点赞数 3

分类专栏： jieba NLP 文章标签： jieba

本文链接：https://blog.csdn.net/qq_29678299/article/details/91355682

版权

import jieba
import jieba.analyse as aly


# 中文 分词工具jieba
sent = '中文分词是文本处理不可或缺的一步！'
seglist = jieba.cut(sent, cut_all=True)
print("全模式", '/'.join(seglist))
# 全模式 中文/分词/是/文本/文本处理/本处/处理/不可/不可或缺/或缺/的/一步//
seglist = jieba.cut(sent)
print("精确模式", '/'.join(seglist))
# 精确模式 中文/分词/是/文本处理/不可或缺/的/一步/！
seglist = jieba.cut_for_search(sent)
print("搜索引擎模式", '/'.join(seglist))
# 中文/分词/是/文本/本处/处理/文本处理/不可/或缺/不可或缺/的/一步/！

# 高频词读取  TF/IDF

content = "自然语言处理（NLP）是计算机科学，人工智能，语言学关注计算机和人类（自然）语言之间的相互作用的领域。" \
          "因此，自然语言处理是与人机交互的领域有关的。在自然语言处理面临很多挑战，包括自然语言理解，" \
          "因此，自然语言处理涉及人机交互的面积。在NLP诸多挑战涉及自然语言理解，即计算机源于人为或自然语言输入的意思，" \
          "和其他涉及到自然语言生成."

# 加载自定义idf词典\n",
aly.set_idf_path('D:\\yangyang\\spy\\nltksample\\103\\idf.txt.

最低0.47元/天解锁文章

光英的记忆

关注

3
点赞
踩
17

收藏

觉得还不错? 一键收藏
1
评论
jieba分词和高频词提取示例代码

import jiebaimport jieba.analyse as aly# 中文分词工具jiebasent = '中文分词是文本处理不可或缺的一步！'seglist = jieba.cut(sent, cut_all=True)print("全模式", '/'.join(seglist))# 全模式中文/分词/是/文本/文本处理/本处/处理/不可/不可或缺/或缺/的/一...
复制链接

扫一扫