这个模块的使用是这一次在调试爬虫工程时,有一个网站爬取的html是gzip压缩后的数据,所以需要稍作修改,解压返回内容即可,所以增加了一个方法,如下:
def gzdecode(data):
compressedstream = StringIO.StringIO(data)
gziper = gzip.GzipFile(fileobj=compressedstream)
return gziper.read()
其中学习了有关StringIO模块,具体学习参考见一下转载的内容,感谢博主http://blog.csdn.net/zhaoweikid/article/details/1656226
StringIO经常被用来作为字符串的缓存,应为StringIO有个好处,他的有些接口和文件操作是一致的,也就是说用同样的代码,可以同时当成文件操作或者StringIO操作。比如:
import string, os, sys
import StringIO
def writedata(fd, msg):
fd.write(msg)
f = open( ' aaa.txt ', ' w ')
writedata(f, " xxxxxxxxxxxx ")
f.close()
s = StringIO.StringIO()
writedata(s, " xxxxxxxxxxxxxx ")
import StringIO
def writedata(fd, msg):
fd.write(msg)
f = open( ' aaa.txt ', ' w ')
writedata(f, " xxxxxxxxxxxx ")
f.close()
s = StringIO.StringIO()
writedata(s, " xxxxxxxxxxxxxx ")
因为文件对象和StringIO大部分的方法都是一样的,比如read, readline, readlines, write, writelines都是有的,这样,StringIO就可以非常方便的作为"内存文件对象"。
import string
import StringIO
s = StringIO.StringIO()
s.write( " aaaa ")
lines = [ ' xxxxx ', ' bbbbbbb ']
s.writelines(lines)
s.seek(0)
print s.read()
print s.getvalue()
s.write( " ttttttttt ")
s.seek(0)
print s.readlines()
print s.len
import StringIO
s = StringIO.StringIO()
s.write( " aaaa ")
lines = [ ' xxxxx ', ' bbbbbbb ']
s.writelines(lines)
s.seek(0)
print s.read()
print s.getvalue()
s.write( " ttttttttt ")
s.seek(0)
print s.readlines()
print s.len
StringIO还有一个对应的c语言版的实现,它有更好的性能,但是稍有一点点的区别,cStringIO没有len和pos属性。