ruby 正则表达式匹配中文

最新推荐文章于 2022-05-31 12:57:17 发布

weixin_30621919

最新推荐文章于 2022-05-31 12:57:17 发布

阅读量233

点赞数

文章标签： ruby

原文链接：http://www.cnblogs.com/dami520/p/3216169.html

版权

1.puts /[一-龥]+/.match("this is 中文") =>中文

2.str2="123中文"
puts /\p{Han}+/u.match(str2)

文本编码格式：utf-8

文件第一行：#encoding:utf-8

require "rubygems"
require "iconv"
print Iconv.iconv("GBK","UTF-8",/\p{Han}+/u.match("tiantianxin你好angshang天天向上")[0]) =>你好

Ruby 和部分语言可以直接 #{Han} 等方式匹配特定的语言，但是对于某些语言，如 JavaScript，是不可能如此简便的

还有常用的:

/\p{Word}+/u 不限于 a-z0-9 的成词字符(就是非标点制表符空格等杂类的字符)
/\p{Hiragana,Katakana}+/u 匹配平假名＋片假名

适用于中韩日的正则表达式，参考：http://chrisyip.im/post/regular-expression-for-cjk/

学习参考：http://ruby-china.org/topics/5680

转载于:https://www.cnblogs.com/dami520/p/3216169.html

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_30621919

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

Ruby正则表达式入门指南

HackNebulaZ的博客

09-20

本文将详细介绍Ruby中的正则表达式，并提供相应的源代码示例。本文将详细介绍Ruby中的正则表达式，并提供相应的源代码示例。字符类用于定义一组可能的字符。中的"Ruby"，并将其作为捕获组返回。中的"Ruby"，并将其作为捕获组返回。中的数字序列"123"，并返回匹配的起始索引7。中的"Ruby"，并将其替换为"Python"。中的数字序列"123"，并返回匹配的起始索引7。中的"Ruby"，并将其替换为"Python"。中的"Ruby"，并返回匹配的起始索引7。中的"Ruby"，并返回匹配的起始索引7。

ruby中如何获得中文/中英文混合字符串的字符个数

EaRoc的专栏

05-10

3250

我们首先想到的是使用String.length获取字符串的长度，但是这个函数在纯ascii字符串的时候能够准确获取字符个数。在中文或者中英文混合的时候就不行了。看下面这个例子。拷贝一段代码，保存为文件kcode.rb。text="y呀"chars = text.split(//)puts "the length of the Array: ",chars.length puts "

参与评论您还未登录，请先登录后发表或查看评论

Ruby正则中文汉字

侠之大者，为国为民

08-17

1929

1.puts /[一-龥]+/.match("this is 中文") =>中文 2.str2="123中文" puts /\p{Han}+/u.match(str2) # /u是utf-8 /a/.encoding # US-ASCII /a/u.encoding # UTF-8 Ruby 和部分语言可以直接 #{Han

正则表达式如何匹配中文

刘大猫

03-15

7750

\w匹配的仅仅是中文，数字，字母，对于国人来讲，仅匹配中文时常会用到，见下匹配中文字符的正则表达式： [\u4e00-\u9fa5] 或许你也需要匹配双字节字符，中文也是双字节的字符· 匹配双字节字符(包括汉字在内)： [^\x00-\xff] 注：可以用来计算字符串的长度（一个双字节字符长度计2，ASCII字符计1） ......

ruby1.8.7 中文字符的正则匹配

dazhi_100的专栏

09-25

1480

s = [0x4e00].pack("U") #中文字符的第一个 e = [0x9fa5].pack("U") #中文字符的最后一个 reg=Regexp.new("[#{s}-#{e}]",false,"U") #生成中文字符的范围 "中" =~ reg #中文字符的正则匹配

Elasticsearch索引检控之Indices Segments API与Indices Shard Stores

中间件兴趣圈

05-12

1503

本文将继续介绍elasticsearch索引监控之Indices segments与Indices Shard stores api。 1、Indices Segments 提供Lucene索引(分片级别)使用的segments(段信息)。其对应的示例代码如下： public static final void test_Indices_segments() { TransportClien...

PHP 正则匹配是否有汉字

____

07-10

320

场景网站的评论总是被俄语、西里尔语的自动评论提交，虽然有验证码，但依旧是成功提交，想到解决办法，评论的内容中必须有汉字，否则不允许提交。正则 if(!preg_match('/\p{Han}+/u',$text,$match)){ // 屏蔽操作 } 当然还有另外一个正则表达式 if(!preg_match('/[\x{4e00}-\x{9fa5}]+/u',$text,$match)){ // 屏蔽操作 } 关于正则语言的说明： http://www.regular-expressions.i

ruby 正则表达式 教程

01-02

这次我们来测试一个字符串是否和一个由简明模式(concise pattern)编码产生的描述相匹配. 在这些模式(pattern)里,一些字符或字符组合都有独特的意义,包括: 代码如下:[] 范围描述符 (比如,[a – z] 表示在a 到...

正则表达式匹配解析过程探讨分析(正则表达式匹配原理)

10-23

正则表达式引擎是执行正则表达式匹配的核心组件，它决定了正则表达式的匹配算法和搜索过程。主要有两种类型的正则表达式引擎：确定型有限自动机（DFA）和非确定型有限自动机（NFA）。 DFA引擎在执行匹配时不回溯，...

list_matcher:Ruby正则表达式生成器

05-16

用于从字符串列表创建紧凑的，非回溯的正则表达式。安装将此行添加到您的应用程序的Gemfile中： gem 'list_matcher' 然后执行： $ bundle 或将其自己安装为： $ gem install list_matcher 概要 require '...

ruby 正则表达式详解及示例代码

10-21

下面详细介绍Ruby正则表达式中的一些常见元素及其含义： 1. 限定符： - {n}：匹配前面的元素恰好出现n次。 - {m,n}：匹配前面的元素最少出现m次，最多出现n次。 - *：匹配前面的元素出现0次或多次。 - +：匹配...

详解Ruby语言中的注释用法与中文编码问题

01-21

Ruby 注释注释会对 Ruby 解释器隐藏一行，或者一行的一部分，或者若干行。您可以在行首使用字符（ # ）： # 我是注释，请忽略我。或者，注释可以跟着语句或表达式的同一行的后面： name = Madisetti # 这也是注释您可以注释多行，如下所示： # 这是注释。 # 这也是注释。 # 这也是注释。 # 这还是注释。下面是另一种形式。这种块注释会对解释器隐藏 =begin/=end 之间的行： =begin 这是注释。这也是注释。这也是注释。这还是注释。 =end Ruby 中文编码用 Ruby 输出 “Hello, World!”，英文没

ruby中判断中文字的正则表达式

langwangff

09-25

562

CN_re = /(?:\xe4[\xb8-\xbf][\x80-\xbf]|[\xe5-\xe8][\x80-\xbf][\x80-\xbf]|\xe9[\x80-\xbd][\x80-\xbf]|\xe9\xbe[\x80-\xa5])+/m 所以，如果我们在rails应用中要支持用户名只有中文，子母，数字，下划线，可以用如下正则 /(?:\xe4[\xb8-\xbf][\x80-\x...

Ruby每周一测 - 中英文混合字符串截取

写程序的70后

06-09

246

这篇Ruby每周一测有点特殊，它不是翻译[url=http://rubyquiz.com/]Ruby Quiz[/url]上的文章，而是我自己出的一个quiz :) ：我们在做页面排版的时候，为了避免过长字符串撑开页面，经常需要调用截取过长字符串的方法，rails已经为我们提供了一个方法： [code="ruby"] ActionView::Helpers::TextHelper#t...

[一-龥]

hgd95的博客

05-31

847

查找所有的汉字，一般使用下面的通配符表示： [一-龥] 注意要勾选“使用通配符”。读yu。

Unicode 属性匹配（\p）

qiang_zi_的专栏

11-14

4820

Unicode 属性匹配（\p） JavaScript 中字符串使用的编码格式 Unicode 对于不同的字符（更严谨地说，码位）有大量的类别。这些类别描述了这个字符的“种类”和技术性细节。在正则表达式中可以使用\p{…}来设置这些类别。注意此时'u'flag 不可缺少。举个例子，\p{letter}在任何一个语言中都表示一个字母。\p{L}是它的简写形式。以下是所有主要...

ruby匹配中文的正则表达

whz110的专栏

07-16

778

ruby1.9: /\p{Word}+/u 不限于 a-z0-9 的成词字符(就是非标点制表符空格等杂类的字符) /\p{Hiragana,Katakana}+/u 匹配平假名＋片假名匹配汉字用 /\p{Han}+/u 就可以了详情看文档。 ruby1.8 针对各种编码的正则: https://gist.github.com/luikore/149493 一个在线的...

Ruby正则表达式完全指南

在Ruby中，正则表达式是一种强大的工具，用于在文本中查找、匹配或提取模式。它们通常由斜杠`/`或`%r`后跟一个模式和可选的修饰符组成。例如，`/pattern/`和`%r!pattern!`都是有效的正则表达式表示方式。 **语法** ...

ruby 正则表达式 匹配中文

ruby 正则表达式匹配中文