写个简单的汉语bigram tokenizer,基本能够满足文本挖掘的原型实验的需要。
def bigram_tokenize(text)
tokens = []
0.upto(text.length-1) do |i|
tokens << text[i..i+1] if text[i..i+1] =~ /\p{Han}{2}/u
end
return tokens
end