python中seek和tell加上readline遇到的坑

------------------------------------制作背景---------------------------------------

在一开始打算写一个记录行号位置的在数据库的一个小方法

方便以后继续读取这个文件时,可以快速找到文件对应位置

主要用于大文件读写

主要思路大概是如下,首先第一次遍历,记录下行号为1W的字节位置,比如1W行字节位置在x,2W行的字节位置在y

那么在数据存储 1 ----x,2---y,然后下一次想读取第2W行,就可以直接seek(y)然后进行读取

【如果要读取比如两万一千行,也可以直接seek(y),然后一行行readline过去,也可以直接readlines过去,大概就是readlines(3W的字节位置 - 2W的字节位置),直接读取1W行进内存然后自己选择需要的行】

这个主要是思考用于超大文件读取对应行的思路,一般超大文件要么不再进行改动,要么就是末尾增加字符,对于这种字节存储对应行数,不会有太大影响

------------------------------正篇---------------------------------------

在使用readline遍历行号的时候遇到了一个问题

主要就是readline后tell出地址后,用seek转移到对应位置,然后输出的文字不符合

代码如下

filename = "as.log"
with open(filename, 'r') as logFile:
    f = open(filename, 'r')
    for i in range(10):
        logFile.readline()
        temp = logFile.tell()
        print temp
        print logFile.read(1)
        f.seek(temp)
        temp = f.tell()
        print temp
        print f.read(1)
        print
    f.close()

部分运行结果如下

两者tell的地址相同,但是read的东西不同

我就?????

后来发现每过一行,输出的东西位置都会偏差1字节

当时感觉是换行符没有读取到?

后来多次思考

最后阅读这个博客得出一个结论

https://blog.csdn.net/peng__dada/article/details/79138171

因为我测试读取的文件的书写系统,和我测试代码的系统是不一样的

因此换行符不同

/r/n与/n之间有差距,在r的模式下,会产生自动的替换,因为这个替换把/r/n替换成/n(或者相反,懒得验证了),因此会每读取一行有1字节的偏差

有这个猜想后,根据上面地址的博客

把模式改成不会自动替换的rb模式

结果如下

果然结果正常了

得出结论,如果是跨系统进行文件读取等,需要留意,采用rb模式,不然不同系统的区别会有一些坑

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值