python对文件加载到内存进行索引缓存

最新推荐文章于 2023-08-04 19:46:10 发布

lbaby

最新推荐文章于 2023-08-04 19:46:10 发布

阅读量1.6k

点赞数

分类专栏： Python 文章标签： python file 数据库 list c

本文链接：https://blog.csdn.net/lbaby/article/details/7530300

版权

Python 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

前几天写了一个函数，加载文件到内存里进行查找（扔到数据库里有点慢，不想那么搞）。

数据是格式规范的数据，用'|'分隔，按列进行索引：

比如，我们对以下数据进行索引：

1|2|3

#comment

a|bc

可以选择使用第一列索引：

>>> index_file(('1|2|3', 'a|b|c', ' # a comment line '), vertical_sep, '/' , 0)
{'1': ['1', '2', '3'], 'a': ['a', 'b', 'c']}

使用第一列和第三列作为索引：
>>> index_file(('1|2|3', 'a|b|c', ' # a comment line '), vertical_sep, '/' , 0,2)
{'a/c': ['a', 'b', 'c'], '1/3': ['1', '2', '3']}

唯一的问题是索引和数据是绑定在一起的，遇上需要对某个文件建多个索引时，会有多个数据副本。不过，这也可以很容易修改。

在github上查看源代码

写这个函数还遇上了一个问题：在list作为dict的key,使用dict的keys()方法时，in操作符居然是线性查找。StackOverflow的问题解释在这里：

http://stackoverflow.com/questions/10205969/why-in-operator-with-tuple-as-a-key-in-python-so-slow

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lbaby

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

深入浅出：Python内存管理机制

shinuone的博客

10-23

4845

python采用自动内存管理机制：又叫垃圾回收器(garbage collector，gc)。负责定期地扫描并自动回收不再使用的内存和对象，使得开发者可以专注于程序逻辑，而不必担心内存管理问题。

用python搜索大内存文件的加强版--带窗口

weixin_43533706的博客

02-05

263

项羽我最近2周没来更新了，王者新赛季，沉迷了几天，被打自闭了。过来发文章舒缓下心情。0 上一篇文章是用python搜索大内存文件，而且只需要1k哦。大受好评！今天就给我们的小脚本带个美美的窗口吧。效果图如下：是不是赏心悦目了很多，跟我来。先做好铺垫的工作，工具必须先安装，我用的是PyCharm，然后安装qt designer ，PyUIC。qt designer 是图形设计界面，PyUIC是图形设计界面生成的.ui文件转换为.py文件的工具。这两个软件大伙请到百度搜索安装教程了。超级多教程。安

参与评论您还未登录，请先登录后发表或查看评论

python 文本文件内存_Python将2GB文本文件加载到内存

weixin_30440363的博客

01-13

410

In Python 2.7, when I load all data from a text file of 2.5GB into memory for quicker processing like this:>>> f = open('dump.xml','r')>>> dump = f.read()I got the following error:Py...

Python中使用内存缓存

最新发布

Python热爱者的博客

08-04

1129

在编写Python应用程序时，缓存很重要。使用缓存来避免重新处理数据或访问一个缓慢的数据库可以提高你的性能。在Python中，我们可以使用memcached 模块来在我们的脚本中加入内存缓存。本文将讨论准备内存缓存操作和主要的memcached 使用。我们还将学习使用Pythoncache 和set 的高级模式。

python提高运算速度的方法：内存缓存+磁盘缓存

wxyczhyza的博客

11-09

2189

python，内存缓存，磁盘缓存，提高速度，lru_cache, diskcache, fanoutcache

python实现根据文件关键字进行切分为多个文件的示例

09-19

在这个示例中，我们使用了`re`模块来进行正则表达式匹配，以及`linecache`模块来读取指定行号的文件内容，而无需一次性加载整个文件到内存。这在处理大型文件时尤其重要，因为可以避免内存溢出的问题。代码开始...

Python文本处理之按行处理大文件的方法

09-20

在Python 2.2+版本中，文件对象自身就可以在行上高效迭代，这种方式称为延迟读取（lazy reading），即逐行向前读取文件，不必一次性将整个文件加载到内存中。然而，在处理大型文件时，如果我们需要读取整个文件，...

python存储数据超过内存_使用h5py库读写超过内存的大数据

weixin_39826984的博客

12-18

767

使用h5py库读写超过内存的大数据思路在简单数据的读操作中，我们通常一次性把数据全部读入到内存中。读写超过内存的大数据时，有别于简单数据的读写操作，受限于内存大小，通常需要指定位置、指定区域读写操作，避免无关数据的读写。h5py库刚好可以实现这一功能。h5py读写小数据示例import h5pyX= np.random.rand(100, 1000, 1000).astype('float32')...

索引与内存管理：Python中索引的内存使用优化

[索引与内存管理：Python中索引的内存使用优化](https://blog.finxter.com/wp-content/uploads/2023/08/enumerate-1-scaled-1-1.jpg) # 1. 索引与内存管理的基础概念 ## 理解索引的作用索引是数据管理的关键技术之...

python文件读写(open参数，文件缓冲，内存映射，临时文件)

热门推荐

gwbbigbang的专栏

02-12

1万+

python文件读写(open参数，文件缓冲，内存映射，临时文件)

Python基于内存缓存简单实现

hsunnyc的博客

03-19

4222

简单的 key - value 缓存，带有缓存失效时间设置

python怎么保存文件到内存_python可以将临时文件保存到内存中吗？

weixin_42316952的博客

02-04

859

比如urllib2 下载的文件，有办法直接存到内存中，然后再内存中解压么？如果在linux中可以使用 /dev/shm题主你好，建议你使用StringIO模块。一个StringIO对象和一个打开的磁盘文件类似，同样可以执行read,write,seek等操作，区别在于它是一个在内存中的文件。然后再配合gzip或者别的解压模块，就可以做到在内存中解压了，示例代码如下：import urllib2im...

在 Python 中添加缓存

我的博客，不一样的自我表达

05-30

335

当我们处理 api 时，尤其是显示信息时，通常会遇到许多相同的调用。因此，为了避免过度利用我们的资源并提高速度，我们可以直接在 Python 代码中设置缓存。只需 3 行，我们就可以添加缓存并使一些数据无效，以提高我们的性能并减少资源使用！如果没有为此参数提供值，所有信息将被存储，直到 python 应用程序重新启动。如果你喜欢我的文章，记得关注获取更多的信息。maxsize是可以同时缓存的方法的不同调用的最大值。如果没有为这个参数赋值，那么每次不同的调用都会被缓存。

python建立数据库实现_python实现简易数据库之一——存储和索引建立

weixin_39865102的博客

11-28

297

最近没事做了一个数据库project，要求实现一个简单的数据库，能满足几个特定的查询，这里主要介绍一下我们的实现过程，代码放在过ithub，可参看这里。都说python的运行速度很慢，但因为时间比较急，工作量大，我们还是选择了高效实现的python。一、基本要求1、设计存储方式测试的数据量大小为1.5GB，最大的表有6,001,215条记录。最大限度减少I/O次数，减少磁盘占有空间。2、实现和优化...

python-18-如何将文件映射到内存？

含笑

05-05

2996

当我们使用read读取文件时可以使用seek来定位指针。但是如果是二进制文件，定位读取就是一个难题了。方案：使用dd命令创建一个1MB大小内容为0的文件；然后我们对该文件进行映射import mmap mmap.mmap 在不同平台稍有差别 f = open('demo.bin','r+b') f.fileno() =>文件描述符 5 - fileno文件描述符，并不是一个文件对

用pandas处理大数据———减少90%内存消耗的小贴士

wally21st的博客

08-29

1万+

用pandas处理大数据———减少90%内存消耗的小贴士一般来说，用pandas处理小于100兆的数据，性能不是问题。当用pandas来处理100兆至几个G的数据时，将会比较耗时，同时会导致程序因内存不足而运行失败。当然，像Spark这类的工具能够胜任处理100G至几个T的大数据集，但要想充分发挥这些工具的优势，通常需要比较贵的硬件设备。而且，这些工具不像pandas那样具有丰富的进行高质

简明Python教程：从入门到精通

Python会自动缓存编译后的.pyc文件，提高加载速度。from...import语句可以导入模块中的特定部分，而__name__属性可用于判断模块是否作为主程序运行。数据结构是存储和操作数据的关键，列表是最常用的序列类型，...