python中seek和tell加上readline遇到的坑

最新推荐文章于 2023-01-05 20:13:01 发布

blankcyx

最新推荐文章于 2023-01-05 20:13:01 发布

阅读量787

点赞数

分类专栏： python

本文链接：https://blog.csdn.net/ever_evil/article/details/88339189

版权

python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

------------------------------------制作背景---------------------------------------

在一开始打算写一个记录行号位置的在数据库的一个小方法

方便以后继续读取这个文件时，可以快速找到文件对应位置

主要用于大文件读写

主要思路大概是如下，首先第一次遍历，记录下行号为1W的字节位置，比如1W行字节位置在x，2W行的字节位置在y

那么在数据存储 1 ----x，2---y,然后下一次想读取第2W行，就可以直接seek(y)然后进行读取

【如果要读取比如两万一千行，也可以直接seek(y)，然后一行行readline过去，也可以直接readlines过去，大概就是readlines(3W的字节位置 - 2W的字节位置)，直接读取1W行进内存然后自己选择需要的行】

这个主要是思考用于超大文件读取对应行的思路，一般超大文件要么不再进行改动，要么就是末尾增加字符，对于这种字节存储对应行数，不会有太大影响

------------------------------正篇---------------------------------------

在使用readline遍历行号的时候遇到了一个问题

主要就是readline后tell出地址后，用seek转移到对应位置，然后输出的文字不符合

代码如下

filename = "as.log"
with open(filename, 'r') as logFile:
    f = open(filename, 'r')
    for i in range(10):
        logFile.readline()
        temp = logFile.tell()
        print temp
        print logFile.read(1)
        f.seek(temp)
        temp = f.tell()
        print temp
        print f.read(1)
        print
    f.close()

部分运行结果如下

两者tell的地址相同，但是read的东西不同

我就？？？？？

后来发现每过一行，输出的东西位置都会偏差1字节

当时感觉是换行符没有读取到？

后来多次思考

最后阅读这个博客得出一个结论

https://blog.csdn.net/peng__dada/article/details/79138171

因为我测试读取的文件的书写系统，和我测试代码的系统是不一样的

因此换行符不同

/r/n与/n之间有差距,在r的模式下，会产生自动的替换，因为这个替换把/r/n替换成/n（或者相反，懒得验证了），因此会每读取一行有1字节的偏差

有这个猜想后，根据上面地址的博客

把模式改成不会自动替换的rb模式

结果如下

果然结果正常了

得出结论，如果是跨系统进行文件读取等，需要留意，采用rb模式，不然不同系统的区别会有一些坑

blankcyx

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
python中seek和tell加上readline遇到的坑

------------------------------------制作背景---------------------------------------在一开始打算写一个记录行号位置的在数据库的一个小方法方便以后继续读取这个文件时，可以快速找到文件对应位置主要用于大文件读写主要思路大概是如下，首先第一次遍历，记录下行号为1W的字节位置，比如1W行字节位置在x，2W行的字节位置...
复制链接

扫一扫