词频统计

乐享图情

于 2021-05-10 23:50:31 发布

阅读量187

点赞数

分类专栏： python 文章标签：程序人生

本文链接：https://blog.csdn.net/qq_38927819/article/details/116615168

版权

python 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

内容来源：选自慕课，北理工，嵩天python语言程序设计，适用于小白入门吧，要学好，还任红而道远。
jieba分词是非常重要的中文分词第三方库，其分词原理是：计算汉字之间的关联概率，概率大的组成词组，形成分词结果。
jieba有三种模式：
jieba.lcut(s) #精确模式，返回列表类型的结果；
jieba.lcut(s,cut_all=Ture) #全模式，返回列表类型结果，存在冗余；
jieba.lcut_for_search(S) #搜索引擎模式；
jieba.add_word(w) #向分词词典增加新词w。

案例：

import jieba
txt = open("G:\pycharm\pycharm\cwz.txt", "r", encoding="utf-8").read()  #读取文件
excludes = {"item","http","blog","html","sina","com","cn"}   #排除掉一些非重要关键词
words = jieba.lcut(txt)        #精确模式
counts = {}         
for word in words:           #for循环，没有出现的词频，计算一次，出现的累加
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word,0) + 1
for word in excludes:          #如果词在excludes中，则删除掉
    del counts[word]
items = list(counts.items())       #将item转换为列表，统计用
items.sort(key = lambda x:x[1], reverse=True)           #列表的排序功能
for i in range(50):                       #提取前50个词，
     word, count = items[i]
     print("{0:<5}{1:>5}".format(word, count))    #貌似5表示词与词频之间的距离。

乐享图情

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
词频统计

如题“闲扯”，不过倒也不是闲来无事，自从去年发生的一些事情，自己倒是感觉比以前略有沉稳，可能这是他姓名前两个字所带给我的唯一的益处吧。回想以往时光，毕业后总依仗着那些少的可怜的东西，自以为少年得志，年少轻狂，想来自己还是有所膨胀的，包括跟一些人说的一些话，很是装x啊，以致于后来这种不得事宜的傲气还是存在着，而他的降为打击，其实好处更多，给了自己足够大的反思空间。所以成长确实是需要一些足以引起你内心强烈重视的事情，其实自己也知道，甚至有意识去改变，但效果不大，而历经一些事，开始正视所有内心黑暗面，差距，修养，
复制链接

扫一扫