写个简单的汉语bigram tokenizer

最新推荐文章于 2024-04-13 23:55:06 发布

iteye_14216

最新推荐文章于 2024-04-13 23:55:06 发布

阅读量378

点赞数

分类专栏： Ruby 文章标签： Ruby

本文链接：https://blog.csdn.net/iteye_14216/article/details/82002349

版权

Ruby 专栏收录该内容

39 篇文章 1 订阅

订阅专栏

写个简单的汉语bigram tokenizer，基本能够满足文本挖掘的原型实验的需要。


def bigram_tokenize(text)
    tokens = []
    0.upto(text.length-1) do |i|
        tokens << text[i..i+1] if text[i..i+1] =~ /\p{Han}{2}/u
    end
    return tokens
end

优惠劵

iteye_14216

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
写个简单的汉语bigram tokenizer

写个简单的汉语bigram tokenizer，基本能够满足文本挖掘的原型实验的需要。[code="ruby"]def bigram_tokenize(text) tokens = [] 0.upto(text.length-1) do |i| tokens ...
复制链接

扫一扫