import jieba
import jieba.analyse as aly
# 中文 分词工具jieba
sent = '中文分词是文本处理不可或缺的一步!'
seglist = jieba.cut(sent, cut_all=True)
print("全模式", '/'.join(seglist))
# 全模式 中文/分词/是/文本/文本处理/本处/处理/不可/不可或缺/或缺/的/一步//
seglist = jieba.cut(sent)
print("精确模式", '/'.join(seglist))
# 精确模式 中文/分词/是/文本处理/不可或缺/的/一步/!
seglist = jieba.cut_for_search(sent)
print("搜索引擎模式", '/'.join(seglist))
# 中文/分词/是/文本/本处/处理/文本处理/不可/或缺/不可或缺/的/一步/!
# 高频词读取 TF/IDF
content = "自然语言处理(NLP)是计算机科学,人工智能,语言学关注计算机和人类(自然)语言之间的相互作用的领域。" \
"因此,自然语言处理是与人机交互的领域有关的。在自然语言处理面临很多挑战,包括自然语言理解," \
"因此,自然语言处理涉及人机交互的面积。在NLP诸多挑战涉及自然语言理解,即计算机源于人为或自然语言输入的意思," \
"和其他涉及到自然语言生成."
# 加载自定义idf词典\n",
aly.set_idf_path('D:\\yangyang\\spy\\nltksample\\103\\idf.txt.
jieba分词和高频词提取示例代码
最新推荐文章于 2024-05-20 09:29:45 发布