词频统计排序算法——字典转列表法

最新推荐文章于 2024-10-16 17:48:16 发布

hhui_2022_10_15

最新推荐文章于 2024-10-16 17:48:16 发布

阅读量147

点赞数

分类专栏： python 文章标签： python

本文链接：https://blog.csdn.net/hxj_2022_10_15/article/details/129017350

版权

python 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

新建一个字典，对读取的文本进行词频的统计。

fi = open('xx.txt','r',encoding='utf-8')
txt=fi.read()
fi.close()
ls=jieba.lcut(txt)
d = {}
for c in ls:
    d[c]=d.get(c,0)+1

如果想删去标点符号，可以使用del d[]

#删去标点符号的统计
sym = '!@#$%^&*()_+-{}[]:";'<>?,./'
for x in sym:
    del d[x]

排序算法

new_ls=list(d.items())#字典转列表
new_list.sort(key=lambda x:x[1],reverse=True)#使用匿名函数对进行排序

输出：假设输出前8个词

for i in range(8):
    word,count=new_ls[i]#将（a,b）中的值赋给word count,便于输出
print('{}:{}'.format(word,count))

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

hhui_2022_10_15

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

python将字典中统计的词频按顺序排列

feiyang5260的博客

01-26

4082

步骤如下所示: >>> from operator import itemgetter >>> data = {'hello':3,'bye':10,'good':8,'yes':15,'no':5...

实用工具：词频统计&出现位置&排序

weixin_33928467的博客

10-23

247

本文实现命令行工具：对输入文件进行词频统计，显示每个词每次出现的位置，并利用不同的排序方法对其进行排序。 d1023 放上源码图片数据结构设计&设计后续添加 Github地址：https://github.com/He11oLiu/WordFrequency 词频统计&排序简单空格分词的英文文档的词频统计。提供了四种排序方式可以选择。使用方法...

参与评论您还未登录，请先登录后发表或查看评论

python词频统计并按词频排序

热门推荐

Tao_Shimmer的博客

11-07

1万+

python词频统计 这篇博客用来记录一下自己学习用python做词频统计的过程 #一、英文词频统计，所用文本《THE CATCHER IN THE RYE 》(麦田里的守望者）涉及的第三方库及其在程序中的用途如下: import string #去除英文标点符号 from nltk.corpus import stopwords #去掉一些停用词这里说下停用词，所谓停用词，多是一些出现频繁但实际意义不大或是对文本分析帮助不大的词汇，如英文里的a,an,that 中文里的“的”、“是”等词，下面是

词频统计排序的几种方法(手写 pandas NLTK)

02-05

3989

#在list中词频统计小程序分析 ''' 利用dict将list中的词频统计一kv的形式展现出来 ''' ls = ["综合", "理工", "综合", "综合", "综合", "综合", "综合", "综合", \ "综合", "综合", "师范", "理工", "综合", "理工", "综合", "综合", \ "综合", "综合", "综合", "理工", "理工"...

Python3词频统计和排序

Asia-Lee

10-11

6262

1.方法一： # -*- coding: utf-8 -*- from collections import defaultdict import operator #词集列表 dataset = [ ['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take',...

Leetcode刷题笔记——排序算法篇

qq_42898642的博客

02-16

1726

本文给大家介绍了面试中常考的关于排序问题的算法题，本文重点介绍了计数排序、快速排序、堆排序（重点）、插入排序、归并排序（重点）、桶排序、还有自定义排序规则

NLP算法-基于 Jieba 的词频统计

Albert_weiku的博客

10-25

2643

在一份给定的文件里，词频（term frequency，TF）指的是某一个给定的词语在该文件中出现的次数。一个词语出现的次数越多，越表明是该文件的核心词汇，该词语对于快速理解文章具有重要的意义。词频统计是自然语言处理技术中最基础的技术之一，在词频统计中，如何区分词是很关键的一环。

Spark实战：词频统计

howard2005的专栏

04-02

1719

在Spark实战中，我们通过Scala和Python两个版本分别实现了词频统计的功能。首先，我们从文本文件中创建了RDD，然后按空格拆分进行扁平化映射，接着将单词数组映射成二元组数组，之后对二元组数组进行按键归约，最后将词频统计结果按次数降序排列。在分步实现的基础上，我们还可以通过一步命令直接完成整个流程。通过这次实战，我们对Spark的基本操作有了更深入的了解，为后续的学习和实践打下了基础。

组合数据类型——元组列表集合映射，含词频统计做法

coising的博客

11-24

555

组合数据类型——元组列表集合映射，含词频统计做法

哈希表词频统计

04-28

用哈希表对较大文件的单词进行排序结果输出到一个txt文件里出现次数不一样按出现次数排序出现次数一样按字典顺序排序

LeetCode算法练习——字典树（一）

Alpaca Roy的博客

06-18

501

字典树又称单词查找树，Trie树，是一种树形结构，是一种哈希树的变种。典型应用是用于统计，排序和保存大量的字符串（但不仅限于字符串），所以经常被搜索引擎系统用于文本词频统计。它的优点是：利用字符串的公共前缀来减少查询时间，最大限度地减少无谓的字符串比较，查询效率比哈希树高。字典树的性质：根节点不包含字符，除根节点外每一个节点都只包含一个字符从根节点到某一个节点，路径上经过的字符连接起来，就是该节点对应的字符串每个节点的所有子节点包含的字符都不相同。 LeetCode20...

字符串算法总结——字典树

LiuKairui的博客

06-09

1390

字典树好不容易不用学EXKMP，开森，实际上字典树很简单，我们看：已知有 n 个长度不一定相同的母串，以及一个长度为 m 的模式串 T，求该模式串是否是其中一个母串的前缀。如果将模式串 T 挨个去比较，则算法复杂度会很高，达到 O(n×m)，是否有高效的方法呢？已知一个长度为 n 的字符串 S，求该字符串有多少个不相同的子串。朴素的做法，可以先枚举出所有的子串，这样时间复杂度为 O(n...

基于Tire树(字典树)与倒排索引实现文本词频统计工具

ZY-JIMMY

06-30

5865

C风格文件、C++风格读写操作、英文文章单词的正确分割、基于Trie树实现文件词频统计 、基于Trie树实现带倒排索引的文件词频统计

【人工智能学习之PaddleOCR快速上手】

Jiagym的博客

10-12

1213

在配置文件中，可以设置组建模型、优化器、损失函数、模型前后处理的参数，PaddleOCR从配置文件中读取到这些参数，进而组建出完整的训练流程，完成模型训练，在需要对模型进行优化的时，可以通过修改配置文件中的参数完成配置，使用简单且方便修改。而 L2 正则化中，添加正则化项的目的在于减少参数平方的总和。准确检测的标准是检测框与标注框的IOU大于某个阈值，正确识别的检测框中的文本与标注的文本相同。如果缺少带标注的数据，或者不想投入研发成本，建议直接调用开放的API，开放的API覆盖了目前比较常见的一些垂类。

目标检测系统中需要【重新训练模型】说明

2401_85556416的博客

10-13

387

打开"ultralytics\cfg\datasets\SODA10M.yaml"文件。将SODA10M.yaml的第一行数据集路径修改为自己数据集路径。以【基于YOLOv8的车辆行人目标检测系统】训练为例进行说明。训练模型的权重保存路径在"runs\detect\train\weights"目录下。给出的项目中已包含训练好的模型以及训练的结果，可直接使用。（3）运行main_model_train.py程序。（1）如果环境还没有搭建好的，首先要搭建训练环境。（4）训练模型保存路径。

Python 使用 Jarvis 算法或包装的凸包（Convex Hull using Jarvis’ Algorithm or Wrapping）

csdn_aspnet的专栏

10-14

1147

例如，当输入 (0, 3), (0, 0), (0, 1), (3, 0), (3, 3) 时，它产生 (0, 3) (0, 0) (3, 0) (3, 3) 的输出；当输入 (0, 3), (0, 1), (0, 0), (3, 0), (3, 3) 时，输出为 (0, 3) (0, 1) (0, 0) (3, 0) (3, 3)。下一个点被选为在逆时针方向上领先于所有其他点的点，即，如果对于任何其他点 r，我们有“orientation(p, q, r) = 逆时针”，则下一个点是 q。

有趣的开源项目——Taipy(构建Python数据和AI Web应用程序)

Soul丶君的博客

10-11

896

Taipy 是专为数据科学家和机器学习工程师设计的，用于构建数据与 AI Web 应用程序的工具。⭐️ 使构建生产就绪的 Web 应用程序成为可能。⭐️ 无需学习新的语言，仅需 Python。⭐️ 专注于数据和 AI 算法，而不用担心开发和部署的复杂性。

python爬虫快速入门之---Scrapy 从入门到包吃包住