Ruby操纵外部数据(三)


20 、按字节迭代文件

要每次迭代一个字节,使用each_byte 实例方法。记着,它拾取一个字符( 也就是一个整数) 放入块中;如果你想将其转换成真正的字符使用chr 方法。这儿是个例子:
file = File.new("myfile")
e_count = 0
file.each_byte do |byte|

e_count += 1 if byte == ?e
end

21 、将字符串看成文件

有时候人民想知道如何把一个字符串看成一个文件。答案依赖于这个问题的准确含义。
对象大多数被定义在它的方法内。下面代码显示了一个应用于source 对象的迭代器;它每次迭代,输出一行。读这个片断的时候,能告诉你source 的类型吗?
source.each do |line|

puts line
end
实际上,source 应该是个文件,或者是个含有换行符的字符串。所以,像种情况,字符串可以被视做一个文件。

这自然导出写出像IOString类的思想。我们可以在这儿做到,但类的准确设计依赖于你想用它做什么。例如,我们是否应该从String或从IO来继承?第三种可能是创建个库然后添加方法给String(就像ftools扩展File一样)

我们没有尝试完整的实现。我们只作出一个框架来显示一种途径( Listing4.1) 。可以给它添加祥尽的一套方法和错误检测;这儿的例子即不完整也不健壮。
Listing 4.1 Outline of an IOString Class
class IOString < String

def initialize(str="")

@fptr = 0

self.replace(str)

end

def open

@fptr = 0

end

def truncate

self.replace("")

@fptr = 0

end

def seek(n)

@fptr = [n, self.size].min

end

def tell

@fptr

end

def getc

@fptr += 1

self[@fptr-1].to_i

end

def ungetc(c)

self[@fptr -= 1] = c.chr

end

def putc(c)

self[@fptr] = c.chr

@fptr += 1

end

def gets


s = ""

n = self.index("n",@fptr)

s = self[@fptr..n].dup

@fptr += s.length

s

end

def puts(s)

self[@fptr..@fptr+s.length-1] = s

@fptr += s.length

end
end


ios = IOString.new("abcdefghijklnABCn123")
ios.seek(5)
ios.puts("xyz")
puts ios.tell
# 8
puts ios.dump
# "abcdexyzijklnABCn123"
c = ios.getc
puts "c = #{ c} "
# c = 105
ios.ungetc(?w)
puts ios.dump
# "abcdexyzwjklnABCn123"
puts "Ptr = #{ ios.tell} "
s1 = ios.gets
# "wjkl"
s2 = ios.gets
# "ABC"


22 Reading Data Embedded in a Program
当你12 岁时可以从杂志上学习BASIC ,出于方便你使用了DATA 语句。信息被植入程序内,但它可以被读取,就像它是在外部。
你甚至可以想,在Ruby 中你可做同样的事。Ruby 程序内的指示器__END__ 放在数据后。它可以使用全局常量DATA 来读,像其它样是个IO 对象。( 注意__END__ 标记必须出现在行的开始。) 这儿个例子:
# Print each line backwards...
DATA.each_line do |line|

puts line.reverse
end
__END__
A man, a plan, a canal... Panama!Madam, I'm Adam.
,siht daer nac uoy fI
.drah oot gnikrow neeb ev'uoy


23 、读程序源代码

假设你想访问你自己程序源代码。它可以做为我们在别处使用过的一个变异 ( "Reading Data Embedded in a Program")
全局常量DATA 是个IO 对象,它引用__END__ 指示器后面的数据。但是,如果你要完成一个回绕操作,它将重置文件指示器到程序 源代码的开始位置。
下面程序将产生它自己的行号列表( 这不特别有用,但是大楖你可找到一些其它更好的用法)
DATA.rewind
num = 1
DATA.each_line do |line|

puts "#{ '%03d' % num}
#{ line} "

num += 1
end
__END__


注意__END__ 指示器是必须的;没有它,DATA 不能被完全访问。


24 、完成新行符的转换

处理不同操作系统间的区别是件烦心的事,因为它有对行结束符的不同概念。通常的新行是一个回车(CR) 后跟随一个换行符(LF) ;但在早期的Unix 中,决定只存储一个换行符,这会为每个多留出一个完整的字节( 那里512KB 是很多内存了) 。今天我们可以希望文本文件是个文本文件,但Unix Windows 之间还是有新行问题。

所以,我们在这儿提供了一个小小解决办法。gets方法将接收两种新行符,并且puts方法将总是以本地格式写。这意思着同样代码将在本地格式和两种操作系统之间转换。我们这儿显示了一个简单的过滤器,它从标准输入读然后写到标准输出:

while line = gets

puts line
end

其它情况可能由从未知操作系统接收整个文件引起的。但是Unix使用LF给它的新行,而Windows使用CR-LF,另外的可能性是使用Mac OS,它只使用CR。大多数时候,当Web上的一个TESTAREA被处理时,才会出现这种情形。

这儿是处理这种情况的一种方式,我们希望存储文本区域的内容到我们的Linux Web 服务器上的文件中:
tmp=cgi.params["mytextarea"].to_s
File.open("newfile","w") do |f|

newstring = tmp.gsub!(/rn/m,"n") or

tmp.gsub!(/r/m,"n") or tmp

newstring.each {
|line| f.puts line }
end
第一个gsub! 寻找PC 上的CR-LF 对。如果没有找到,它返回nil ,意味着允许下一个gsub! 运行,它工作在Mac OS 系统的文件中。如果没有找到回车符,使用最初捕获的字符串。在转换后,字符串被按行写入到文件中。


25 、用临时文件工作

在很多情况下,我们需要用匿名文件工作。我们不想被它们的名字或不让名字冲突而烦恼,我们也不想为删除它们而操心。
所有这些都在Tempfile 库中。new 方法( 别名open) 将接受一个基本名字做为" 种子字符串" 并与进程ID 和一个唯一的数字连接。可选的第二个参数是使用的目录;它缺省是环境变量TMPDIR, TMP, TEMP 的值,最后的值是"/tmp"
在程序运行期间,结果IO 对象可以被多次打开和关闭。在程序的终止,临时文件将被删除。
close 方法有个可选的标志;如果设置为true ,在它关闭后( 代替waiting 直到程序终止) 文件将被立即删除。Path 方法将返回文件的实际路径,你应该需要它。这儿是个例子:
require "tempfile"
temp = Tempfile.new("stuff")
name = temp.path
# "/tmp/stuff17060.0"
temp.puts "Kilroy was here"
temp.close
# Later...
temp.open
str = temp.gets
# "Kilroy was here"
temp.close(true)
# Delete it NOW


26 、更改和设置当前路径

当前目录可以使用Dir.pwd 或它的别名Dir.getwd 来确定;历史上这些缩写分别地代替打印工作目录和获取工作目录。在Windows 环境中,使用反斜线符号。
方法Dir.chdir 可以用于更改当前目录。在Windows 上,驱动器可以出现在字符串前面。这儿是个例子:
Dir.chdir("/var/tmp")
puts Dir.pwd
# "/var/tmp"
puts Dir.getwd
# "/var/tmp"


27 、更改当前根目录

在大多数Unix 变体中,可以修改当前处理的根目录。典型这样做的原因是为了安全( 例如,当运行非安全或未经测试的代码) Chroot 方法将用指定的目录设置新的根目录。



Dir.chdir("/home/guy/sandbox/tmp")
Dir.chroot("/home/guy/sandbox")
puts Dir.pwd
# "/tmp"


28 、在目录条目上迭代

类方法foreach 是个迭代器,它将连续传递每个目录入口给块。实例方法each 行为是一样的。这儿个例子:
Dir.foreach("/tmp") {
|entry| puts entry }
dir = Dir.new("/tmp")
dir.each
{
|entry| puts entry }

先前的两个代码片断将打印同样的输出(/tmp内的所有文件和子目录的名称)



29 、获取目录入口清单

类方法Dir.entries 将返回包含指定目录内所有条目的数组:
list = Dir.entries("/tmp")
# %w[. .. alpha.txt beta.doc]


30 Creating a Chain of Directories
Sometimes we want to create a chain of directories where the intermediate directories themselves don't necessarily exist yet. At the Unix command line, we would use mkdir -p for this.
Ruby 代码中,我们可以使用makedirs 方法来做,它将ftools 库添 加到File 中:
require "ftools"
File.makedirs("/tmp/these/dirs/need/not/exist")


31 、递归删除目录

Unix 中,我们可以在命令行输入rm –rf dir 和完整的将被删除的以dir 开始的子目录。很明显,我们在做时应该小心。
如果你想使用代码来完成这些,下面就是:
def delete_all(dir)

Dir.foreach(dir) do |e|


# Don't bother with . and ..

next if [".",".."].include? e

fullname = dir + File::Separator + e

if FileTest::directory?(fullname)

delete_all(fullname)

else

File.delete(fullname)

end

end

Dir.delete(dir)
end
delete_all("dir1")
# Remove dir1 and everything under it!


32 、查找文件和目录
这儿,我们使用标准库find.rb 来创建一个方法,它将找出一个或多个文件并返回含有文件列表的数组。第一个参数是开始目录;第二个即可是文件名( 也就是字符串) 或者是正则表达式:
require "find"
def findfiles(dir, name)

list = []

Find.find(dir) do |path|

Find.prune if [".",".."].include? path

case name

when String

list << path if File.basename(path) == name

when Regexp

list << path if File.basename(path) =~ name

else

raise ArgumentError

end

end

list
end


findfiles "/home/hal", "toc.txt"
# ["/home/hal/docs/toc.txt", "/home/hal/misc/toc.txt"]
findfiles "/home", /^[a-z]+.doc/
# ["/home/hal/docs/alpha.doc", "/home/guy/guide.doc",
#
"/home/bill/help/readme.doc"]




二、完成高级数据访问

我们经常想以更明显的方式来存储和取回数据。Marshal 模块提供了简单的对象永续,Pstore 库则提供更多功能。最后,dbm 库像个哈希表被用于永久地存储于磁盘上。它并不属于这一章,但它相当简单。


1 、简单的 Marshaling
在很多情况下,我们想创建对象并简单地保存它以便在以后使用。Ruby 对对象的永续和排列提供了根本的支持。Marshal 模块能够序列化和反序列化Ruby 对象:
# array of elements [composer, work, minutes]
works = [["Leonard Bernstein","Overture to Candide",11],

["Aaron Copland","Symphony No. 3",45],

["Jean Sibelius","Finlandia",20]]
# We want to keep this for later...
File.open("store","w") do |file|

Marshal.dump(works,file)
end


# Much later...
File.open("store") do |file|

works = Marshal.load(file)
end
这个技术有个缺点不是所有对象都能被转储。如果一个对象包括更低级类的对象,它不能被排列;这包括IO,Proc, 和少数几个。Singleton 对象也不能被序列化。


2 、更复杂的Marshaling
 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值