Ruby語言中的String深入理解

Ruby語言中的String深入理解


Ruby語言中的String是mutable的,不像java、C#中的String是immutable的。比如
 
str1="abc" 
str2="abc" 

  在java中,對於字面量的字元串,jvm內部維持一張表,因此如果在java中,str1和str2是同一個String對象。而在Ruby中, str1和str2是完全不同的對象。同樣,在java中對於String對象的操作都將產生一個新的對象,而Ruby則是操縱同一個對象,比如:
 
str="abc" 
str.concat("cdf") 

  此時str就是"abccdf"。Ruby對String是怎麼處理的呢?我們只談談c ruby中的實現,有興趣的先看看這篇文章《管窺Ruby——對象基礎》。在ruby.h中我們可以看到String對象的結構,Ruby中的對象(包括類也是對象)都是一個一個的struct,String也不能例外:
 
struct RString { 
struct RBasic basic; 
long len; 
char *ptr; 
union { 
long capa; 
VALUE shared; 
} aux; 
}; 
//ruby.h 

 顯然,len是String的長度;ptr是一個char類型的指針,指向實際的字元串;然後是一個聯合,這個稍後再說。如果你看看ruby.h可以發 現,幾乎所有定義的對象結構都有一個struct RBasic。顯然,struct RBasic包含由所有對象結構體共享的一些重要信息的。看看RBasic:
 
struct RBasic { 
unsigned long flags; 
VALUE klass; 
}; 

  其中的flags是一個多用途的標記,大多數情況下用於記錄結構體的類型,ruby.h中預定義了一些列的宏,比如T_STRING(表示struct RString),T_ARRAY(表示struct RArray)等。Klass是一個VALUE類型,VALUE也是unsigned long,可以地將它當成指針(一個指針4位元組,綽綽有餘了),它指向的是一個Ruby對象,這裡以後再深入。

  那麼聯合aux中的capa和shared是幹什麼用的呢?因為Ruby的String是可變的,可變意味著len可以改變,我們需要每次都根據len的 變換來增減內存(使用c中的realloc()函數),這顯然是一個很大的開銷,解決辦法就是預留一定的空間,ptr指向的內存大小略大於len,這樣就 不需要頻繁調用realloc了,aux.capa就是一個長度,包含額外的內存大小。那麼aux.shared是幹什麼的呢?這是一個VALUE類型, 說明它是指向某個對象。aux.shared其實是用於加快字元串的創建速度,在一個循環中:

  ruby 代碼

  whiletruedo重複 a="str"#以「str」為內容創建字元串,賦值給a a.concat("ing")#為a所指向的對象添加「ing」 p(a)#顯示「string」 end

  每次都重新創建一個"str"對象,內部就是重複創建一個char[],這是相當奢侈,aux.shared就是用於共享char[],以字面量創建的字元串會共享一個char[],當要發生變化時,將字元串複製到一個非共享的內存中,變化針對這個新拷貝進行,這就是所謂的「copy-on-write"技術。解釋了String的內部構造,貌似還沒有介紹String是怎麼實現mutable,我們寫一個Ruby擴展測試下,我們想寫這樣一個Ruby類:

  ruby 代碼

classTestdefteststr="str"str.concat("ing")endend

  對應的c語言代碼就是:

  cpp 代碼
 
#include 
#include"ruby.h"staticVALUEt_test(VALUEself){ 
VALUEstr;str=rb_str_new2("str"); 
printf("beforeconcat:str:%p, 
str.aux.shared:%p,str.ptr:%s"n",str,(RSTRING(str)->aux).shared,RSTRING(str)->ptr); 
rb_str_cat2(str,"ing"); 
printf("afterconcat:str:%p,str.aux.shared:%p,str.ptr:%s"n", 
str,(RSTRING(str)->aux).shared,RSTRING(str)->ptr);returnself; 
} 
VALUEcTest; 
voidInit_string_hack(){ 
cTest=rb_define_class("Test",rb_cObject); 
rb_define_method(cTest,"test",t_test,0); 
}//string_hack.c 

  rb_define_class函數定義了一個類Test,rb_define_method將t_test方法以test的名稱添加到Test類。在t_test中,通過rb_str_new2每次生成一個RString結構,然後通過rb_str_cat2將str與"ing"連接起來,添加了一些列印用於跟蹤。利用mkmf產生Makefile,寫一個extconf.rb

  ruby 代碼

require'mkmf'create_makefile("string_hack");

  執行ruby extconf.rb,將產生一個Makefile,執行make,生成一個string_hack.so的鏈接庫。擴展寫完了,通過ruby調用:

  ruby 代碼

require'string_hack"t=Test.new(1..3).each{|i|t.test}

  輸出:

before concat: str:0x40098a40, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a40, str.aux.shared:0x8, str.ptr:string
before concat: str:0x40098a2c, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a2c, str.aux.shared:0x8, str.ptr:string
before concat: str:0x40098a18, str.aux.shared:0x3, str.ptr:str
after concat: str:0x40098a18, str.aux.shared:0x8, str.ptr:string

  從結果可以看出,在str concat之前之後,str指向的位置沒有改變,改變的僅僅是str中ptr指向的字元串的值,看看rb_str_cat2函數的實現就一目了然了:

  cpp 代碼
 
VALUErb_str_cat(str,ptr,len)VALUEstr; 
constchar*ptr; 
longlen; 
{ 
if(len<0){rb_raise(rb_eArgError,"negativestringsize(orsizetoobig)"); 
} 
if(FL_TEST(str,STR_ASSOC)) 
{ 
rb_str_modify(str); 
REALLOC_N(RSTRING(str)->ptr,char,RSTRING(str)->len+len); 
memcpy(RSTRING(str)->ptr+RSTRING(str)->len,ptr,len); 
RSTRING(str)->len+=len; 
RSTRING(str)->ptr[RSTRING(str)->len]='"0'; 
/*sentinel*/ 
returnstr; 
} 
returnrb_str_buf_cat(str,ptr,len); 
} 
VALUErb_str_cat2(str,ptr)VALUEstr; 
constchar*ptr; 
{ 
returnrb_str_cat(str,ptr,strlen(ptr)); 
} 
//string.c 
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值