集合妙用的收集

1)字典: 有序性

collections模块:

1.OrderedDict: 有序字典

 

2.defaultdict: 带有默认值的字典

OrderedDict:

使用dict时,Key是无序的。在对dict做迭代时,我们无法确定Key的顺序。

如果要保持Key的顺序,可以用OrderedDict

复制代码
>>> from collections import OrderedDict
>>> d = dict([('a', 1), ('b', 2), ('c', 3)])
>>> d # dict的Key是无序的
{'a': 1, 'c': 3, 'b': 2}
>>> od = OrderedDict([('a', 1), ('b', 2), ('c', 3)])
>>> od # OrderedDict的Key是有序的
OrderedDict([('a', 1), ('b', 2), ('c', 3)])
复制代码

注意,OrderedDict的Key会按照插入的顺序排列,不是Key本身排序:

>>> od = OrderedDict()
>>> od['z'] = 1
>>> od['y'] = 2
>>> od['x'] = 3
>>> od.keys() # 按照插入的Key的顺序返回
['z', 'y', 'x']

 2.defaultdict: 带有默认值的字典

有如下值集合 [11,22,33,44,55,66,77,88,99,90...],将所有大于 66 的值保存至字典的第一个key中,将小于 66 的值保存至第二个key的值中。

from collections import defaultdict

values = [11, 22, 33,44,55,66,77,88,99,90]

my_dict = defaultdict(list)

for value in  values:
    if value>66:
        my_dict['k1'].append(value)
    else:
        my_dict['k2'].append(value)
View Code

另外他可以直接引用,不需要重新定义key

>>> from collections import defaultdict
>>> dd = defaultdict(lambda: 'N/A')
>>> dd['key1'] = 'abc'
>>> dd['key1'] # key1存在
'abc'
>>> dd['key2'] # key2不存在,返回默认值
'N/A'

3)collections模块:Counter类的目的是用来跟踪值出现的次数。它是一个无序的容器类型,以字典的键值对形式存储,其中元素作为key,其计数作为value。计数值可以是任意的Interger(包括0和负数)。Counter类和其他语言的bags或multisets很相似。

 

c = Counter('abcdeabcdabcaba')
print c
输出:Counter({'a': 5, 'b': 4, 'c': 3, 'd': 2, 'e': 1})

它算出所有的值,最后都会变成字典。


4)json序列化模块
什么叫序列化——将原本的字典、列表等内容转换成一个字符串的过程就叫做序列化

json

Json模块提供了四个功能:dumps、dump、loads、load,,而且json是所有的操作系统都可以用,像java之类的都可以。

 

1.dumps:

把字典变成字符串,这样就可以保存别的地方。

import json
dic = {'k1':'v1','k2':'v2','k3':'v3'}
str_dic = json.dumps(dic)  #序列化:将一个字典转换成一个字符串
print(type(str_dic),str_dic)  #<class 'str'> {"k3": "v3", "k1": "v1", "k2": "v2"}
#注意,json转换完的字符串类型的字典中的字符串是由""表示的
View Code

2,loads:

和dumps相反,把字符串变成字典输出。

dic2 = json.loads(str_dic)  #反序列化:将一个字符串格式的字典转换成一个字典
#注意,要用json的loads功能处理的字符串类型的字典中的字符串必须由""表示
print(type(dic2),dic2)  #<class 'dict'> {'k1': 'v1', 'k2': 'v2', 'k3': 'v3'}
View Code
list_dic = [1,['a','b','c'],3,{'k1':'v1','k2':'v2'}]
str_dic = json.dumps(list_dic) #也可以处理嵌套的数据类型 
print(type(str_dic),str_dic) #<class 'str'> [1, ["a", "b", "c"], 3, {"k1": "v1", "k2": "v2"}]
list_dic2 = json.loads(str_dic)
print(type(list_dic2),list_dic2) #<class 'list'> [1, ['a', 'b', 'c'], 3, {'k1': 'v1', 'k2': 'v2'}]

复制代码
View Code

 

3.dump:

这个和文件输出有关,也和dumps差不多,不过只作用文件。

import json
f = open('json_file','w')
dic = {'k1':'v1','k2':'v2','k3':'v3'}
json.dump(dic,f)  #dump方法接收一个文件句柄,直接将字典转换成json字符串写入文件
f.close()
View Code

4,load:

和dump作用相反,但是和loads作用差不多。

f = open('json_file')
dic2 = json.load(f)  #load方法接收一个文件句柄,直接将文件中的json字符串转换成数据结构返回
f.close()
print(type(dic2),dic2)
View Code

 

 

 

 

转载于:https://www.cnblogs.com/52forjie/p/7307236.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 大数据集合的排序常用的算法有以下几种: 1. 快速排序(QuickSort):是一种分治算法,通过递归不断把数据分成两个子集并对它们分别排序,最终得到有序数列。 2. 归并排序(MergeSort):也是一种分治算法,通过递归不断把数据分成两个子集,并对它们分别排序,最终通过归并两个子集得到有序数列。 3. 堆排序(HeapSort):是一种选择排序,通过建立大根堆或小根堆不断地找出最大(最小)的元素放到最后,得到有序数列。 4. 计数排序(CountingSort):是一种非比较排序算法,通过统计每个数值出现的次数来实现排序。 这些算法的具体适用情况及优劣势可以根据具体问题进行选择。 ### 回答2: 大数据集合排序可以使用多种算法,常见的有快速排序、归并排序和堆排序。 1. 快速排序是一种高效的排序算法,它通过选择一个元素作为基准,将集合分成两个子集,并对子集进行递归排序。快速排序具有较好的平均和最坏情况下的性能,时间复杂度为O(nlogn)。 2. 归并排序是将集合划分为两个有序的子集,然后递归地将子集排序,并将两个有序子集合并成一个有序集合。归并排序具有稳定性和较好的最坏情况下的性能,时间复杂度为O(nlogn)。 3. 堆排序是通过构建一个最大堆或最小堆来排序集合。最大堆的根节点是集合中最大的元素,可以将其移动到最后一个位置,然后重新调整堆,得到次大元素。重复这个过程,直到集合有序。堆排序具有较好的最坏情况下的性能,时间复杂度为O(nlogn)。 以上是常见的算法,选择哪种算法取决于数据集的特点、排序要求以及性能要求。此外,还有其他算法如计数排序、基数排序和桶排序等,它们也可以用于大数据集合的排序。 ### 回答3: 大数据集合排序通常使用的算法是外部排序算法,其中最常用的是归并排序算法。 归并排序算法将数据集合划分为若干个较小的子集合,对每个子集合进行内部排序,然后将这些有序的子集合合并起来得到一个完整的有序集合。在大数据集合排序中,由于数据量巨大无法直接载入内存,归并排序算法可以通过分批次处理数据,将数据分为较小的块,分别对每个块进行排序,之后再进行合并操作。归并排序算法的特点是稳定、适用于大规模数据集合的排序,并且具有较好的性能。 具体步骤如下: 1. 将大数据集合划分为适当大小的小块,每个小块可以载入内存进行内部排序。 2. 对每个小块使用内部排序算法(如快速排序、堆排序等)进行排序,得到有序的小块。 3. 依次将排序好的小块进行合并,采用归并排序算法的合并操作,得到一个完整有序的大数据集合。 归并排序算法的优势是可以处理大规模数据集合,并且具有较好的稳定性和扩展性,但由于需要多次磁盘读取和写入操作,速度相对较慢。因此,在实际应用中,还可以根据具体情况选择其他适合大数据排序的算法,例如外部快速排序、外部堆排序等。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值