list与set的查询效率，大量数据查询匹配，必须选set

最新推荐文章于 2023-02-06 17:45:34 发布

你狗

最新推荐文章于 2023-02-06 17:45:34 发布

阅读量2.3k

点赞数 1

文章标签：数据库 c/c++ python

原文链接：http://www.cnblogs.com/darkspr/p/11555675.html

版权

今天吃了个基础差的亏，虽然说知道list和set有查询效率上的区别，但是一直不当回事

这次碰到一个活，要求是将45w的2组数据，进行匹配合并

一个是店铺导出的订单数据，一个是快递给的物流数据

需要把2个匹配合并到一个表格，当然，有些人会说了，用excel处理，函数啥的，1个文件都有1g多，打开电脑得等好久才能反应，要匹配，估计得几个小时

所以用python来写脚本，进行数据匹配

首先原始店铺文件是7个，一个文件里面有6.7w条数据，快递数据是2个，1个里面有22w条，匹配就通过快递单号进行

原始数据都全部转化成csv，方便操作

接下去就是操作思路

1，将店铺文件一行行进行循环，

2，每次去2个快递数据表格里面搜索，

3，如果找到，就把快递数据放到后面

4，如果没找到，就原数据写入

快递数据做了处理，提取单号做成一个list，然后在做一个dict，格式{单号: 对应原始数据}，方便找到后进行提取原始数据

然后开始循环操作，实际执行下来，每1000次查询，需要耗费6秒左右时间

全部数据处理完毕需要30分钟

然后进行优化

将list改成set，其他不动，结果20秒完成！这个效率简直了！

这时就看出来了，基础的东西，有时候就决定了效率

转载于:https://www.cnblogs.com/darkspr/p/11555675.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

你狗

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

数据结构与算法必知基础知识

bigsai

01-06

1万+

原创公众号：bigsai 文章已收录在全网都在关注的数据结构与算法学习仓库欢迎star 前言数据结构与算法是程序员内功体现的重要标准之一，且数据结构也应用在各个方面，业界更有程序=数据结构+算法这个等式存在。各个中间件开发者，架构师他们都在努力的优化中间件、项目结构以及算法提高运行效率和降低内存占用，在这里数据结构起到相当重要的作用。此外数据结构也蕴含一些面向对象的思想，故学好掌握数据结构对逻辑思维处理抽象能力有很大提升。为什么学习数据结构与算法？如果你还是学生，那么这门课程是必修的，考研基本也.

简单比较元组（Set）和列表（List）的查询效率

倚榭听雨

07-31

5925

本试验仅用作简单比较元组（Set）和列表（List）的查询效率：试验方法：相同元素个数及相同查询元素前提下，比较两个数据结构的查询时间 # 计算程序运行时间,粗略比较List和Set的查询效率 import time # 首先赋值一个空的List，并且取值为1到10000000的整数 l = [] for i in range(1,10000000): l.append(i) #...

参与评论您还未登录，请先登录后发表或查看评论

python基础技巧记录——list 和set查找效率

兰兰的博客

08-16

1374

今天使用list存储一个大数据列表，实行遍历查找的时候发现比昨天慢了很多，去看了一下昨天的代码，发现昨天是用set进行存储的。去查了一下，set是哈希表结构存储，而list是顺序结构，存储时只能顺序查找。我知道dict是哈希表，原来set也是哈希表啊，怪不得快。超快，十几万条查找一下子就找完了。 ...

Python中关于list和set的搜索效率及底层原理浅析

Mr_LiShao的博客

09-05

1981

从上图可以看到，同样情况下，在set中查找大概60纳秒，在list中查找大概440微秒=440*1000纳秒=440000纳秒。所用时间大概是set的6000倍。总结原因： list是顺序存储的，在查找的时候遍历整个数组，所以时间复杂度是O(n) set在底层是被设计成没有值的字典型，即只有key没有value。而字典dict类型在python中的实现是基于hash map哈希表的，有一个映射关系，所以在查找时候，通过哈希函数f(x)就能轻易地找到相应的值，所以时间复杂度是O(1)。在Pytho..

【Java基础】-- list、set 和map 的查询速度

欢迎来到我的博客，一起探索代码里的世界！

06-14

9465

1 背景知识 list、set和map的基本介绍如下图： 2、猜想在数据量级比较小的情况下（十万以内），查询速度快慢对比： map 、set 、list的速度相差不大。在数据量比较大的情况下(百万以内)，查询速度： map > set > list。 3、验证某个集合中是否包含某个元素。 3.1 数据量： 9.9万 public class TestFindSpeed { public static void main(String[...

Python 性能优化｜元素极少时 list 和 set 的查找速度

长行

11-18

1078

Python性能优化

Python数据类型(三)数据结构类型—list、tuple、range、set、frozenset、dict

莯滢

03-22

4224

数据结构类型是指用来存储数据、文字、字符、二进制、类对象，进一步方便操作查找存储内容的结构。数据类型分为了序列类型、集合类型、映射类型。序列类型是Python数据类型的内置基本数据类型，有三种基本序列类型：list，tuple和range。同样，序列类型分为通用序列类型、可变类型和不可变类型。集合类型是指由具有唯一性的hashable对象锁组成的无序多项集。无序多项集与序列类型不同，作为无序的集合并不支持记录元素的位置和插入顺序，相应地集合也不支持索引、切片或其他序列类的操作。目前有两种...

java基础之List和Set集合详细介绍

wushan的博客

08-05

2032

一、集合 1、集合介绍 2、Java中的集合分类 3、Collection接口 4、迭代器 5、迭代器使用细节 5.1、获取元素异常 5.2、一次判断只调用一次next方法 5.3、遍历的时候不能使用集合自身的增删方法二、List集合 1、List接口介绍 2、ListIterator接口 3、ArrayList类 3.1、ArrayList介绍 3.2、ArrayList演示 3.3、ArrayList底层结构 4、LinkedList类 4.1、LinkedList介绍

streamset 数据合并_StreamSets使用指南

weixin_29029731的博客

12-23

2166

最近在调研Streamsets，照猫画虎做了几个最简单的Demo鉴于网络上相关资料非常少，做个记录。1.简介Streamsets是一款大数据实时采集和ETL工具，可以实现不写一行代码完成数据的采集和流转。通过拖拽式的可视化界面，实现数据管道(Pipelines)的设计和定时任务调度。最大的特点有：- 可视化界面操作，不写代码完成数据的采集和流转- 内置监控，可是实时查看数据流传输的基本信息和数据的...

java 字符串模糊匹配_Java实现伪查询（全匹配+模糊匹配）

weixin_27791839的博客

02-20

5727

Java实现伪查询(全匹配+模糊匹配)在项目中一直习惯了框架下[springboot+mybatis]的增删改查，然后领导突然给了一个需求，让我先弄一些假数据出来，用于页面的展示，业务啥的也没说，咱是啥也不知道，咱也不该问，直接动手吧。(可能到了这里大家会说，不了解需求、业务的情况下就动手写，怕不是个新手吧！在编程一途中，小编的确是个新手，但是这次不一样，这次的业务需求是真没有，不废话了，上代码吧...

数据迁移时,需要大量set时的批量操作

小小雨伞的博客

12-20

348

那么正常的情况下需要有多少字段就需要set多少个字段,超级的麻烦。A类有很多的数据,需要迁移到新的A类或者和字段和A类相同的数据。需要进行批量操作,A1—>(例)加密,A2—>加密。每个字段或部分字段都需要加密。使用java的反射的特性。

mysql字段映射set_Hibernate之集合映射的使用(Set集合映射,list集合映射,Map集合映射)...

weixin_39691748的博客

01-19

348

List和Has查找数据效率对比

旷野历程

09-09

875

分享知识传递快乐最近研究JDK源码时发现一个很有意思的东西，记录一下所学内容，希望能帮助更多的人。 Java 集合 List、Set 中均有对集合中元素是否存在的判断方法 contains(Object o)。 Map 中有对 key 及 value 是否存在的判断方法 containsKey(Object key) 和 containsValue(Object value)。示例： public static void main(String[] args) {

集合遍历（Map、Set、List）

Y_hahaha的博客

03-25

433

List、Set、List三种类型都属于集合一、一般的遍历一般情况下用foreach都可以达到目的 foreach很强大，都可以直接用foreach来进行遍历 Map： public static void main(String[] args) { Map<String, String> map = new HashMap<String, String&gt...

关于如何从list中查找需要的匹配的数据

horace7777的专栏

02-13

3510

大家都知道erlang常用list来存储数据比如: [{name,"Horace"},{sex,"Male"},{live,"CD"}]这种key-value来存储一个人的信息，那么我们如何能快速的从一个list中找到需要的信息呢，我们有2个函数可以使用帮助: 1:proplists:get_value Info = [{name,"Horace"},{sex,"Male"},{l

Java8中匹配两个list的数据(string的list与对象list的属性求差集)