JavaEye3.0开发手记之二－ rails的UTF-8支持造成的正则表达式问题

最新推荐文章于 2024-09-08 08:47:10 发布

robbin

最新推荐文章于 2024-09-08 08:47:10 发布

阅读量64

点赞数

分类专栏： Ruby 文章标签：正则表达式 Rails Ruby Netbeans fckeditor

Ruby 专栏收录该内容

51 篇文章 0 订阅

订阅专栏

rails的ActionView::Helpers::TextHepler模块提供了很多实用的方法，这些方法对于论坛类应用非常有用，例如auto_link这个方法可以自动检测传入字符串当中的URL，并将其自动转换为HTML超链接格式，这对于显示帖子的内容来说很不错。

但是在开发JavaEye3.0的时候，却发现auto_link有bug，一旦帖子当中的URL后面紧跟中文的话，auto_link就会把URL后面所有的中文当做URL的一部分进行格式化，直到碰到空格为止，例如：

[quote]http://www.iteye.com网站很不错[/quote]

就会被格式化为：

[quote]<a href="http://www.iteye.com网站很不错">http://www.iteye.com网站很不错</a>[/quote]

看来得到rails的源代码里找答案了。

打开netbeans，敲快捷键Ctrl+O，在弹出窗口输入：texthelper，回车，netbeans已经帮我打开了text_helper.rb源代码，通过Navigator窗口，很方便的定位到auto_link方法，仔细看一下，原来主要是这个正则表达式在起作用：


AUTO_LINK_RE = %r{
                (                          # leading text
                  <\w+.*?>|                # leading HTML tag, or
                  [^=!:'"/]|               # leading punctuation, or 
                  ^                        # beginning of line
                )
                (
                  (?:https?://)|           # protocol spec, or
                  (?:www\.)                # www.*
                ) 
                (
                  [-\w]+                   # subdomain or domain
                  (?:\.[-\w]+)*            # remaining subdomains or domain
                  (?::\d+)?                # port
                  (?:/(?:(?:[~\w\+%-]|(?:[,.;:][^\s$]))+)?)* # path
                  (?:\?[\w\+%&=.;-]+)?     # query string
                  (?:\#[\w\-]*)?           # trailing anchor
                )
                ([[:punct:]]|\s|<|$)       # trailing text
               }x unless const_defined?(:AUTO_LINK_RE)

但这个正则表达式上看下看，左看右看都没有啥问题阿。于是把这个正则表达式拷贝出来，放在一个ruby文件里面test.rb，一点点单独调试，但怎么调试都正常，即使把上面那个URL放进去，也可以正常截断中文。

难道是因为rails做了手脚？为了验证这一点，在test.rb前面加上如下内容：


ENV["RAILS_ENV"] = "development"
require File.expand_path(File.dirname(__FILE__) + "/../config/environment")

再运行test.rb，果然！中文又被包括进去了，看来就是rails做了手脚。

再回过头仔细看这个正则表达式，只有[\w]和字符串处理有关系，为了验证这一点，我们做如下试验：

创建一个char.rb文件，内容如下：


def name
  return "范凯"
end

请注意！该文件保存格式请必须使用UTF-8！！
然后打开irb，进行如下交互：

[quote]irb(main):001:0> load "char.rb"
=> true
[color=red]irb(main):002:0> name
=> "\350\214\203\345\207\257"[/color]
irb(main):003:0> name.match /[A-Za-z0-9_]+/
=> nil
irb(main):004:0> name.match /\w+/
=> nil[/quote]

请注意标记为红色的行，在ruby的内存中，中文字符串的编码使用的是unicode格式，中文字符串不能够匹配到/[\w]+/上面去，而/[A-Za-z0-9_]+/与/\w+/是同义词。

好了，现在启动rails的环境：
[quote]$ ./script/console
Loading development environment.
>> load "char.rb"
=> []
[color=red]>> name
=> "鑼冨嚡"[/color]
>> name.match /[A-Za-z0-9_]+/
=> nil
[color=red]>> name.match /\w+/
=> #<MatchData:0x474693c>[/quote][/color]

哈哈，水落石出了！！由于rails的ActiveSupport的引入，在ruby的内存当中，字符串被转换为UTF-8格式了(显示乱码是因为我的Windows操作系统是GBK编码)，而中文字符串居然可以匹配/\w+/了！

我们可以看到，由于rails在内存当中以UTF-8格式操作中文字符串，而不是ruby默认的unicode格式，这就导致了正则表达式的歧义：/[A-Za-z0-9_]+/不能匹配中文，但是/\w+/可以匹配中文，但实际上在ruby当中，这两个正则表达式本应该是同义词。

明白了问题的根源，就清楚了如何去解决auto_link的bug，修改正则表达式和相关方法，将\w替换为A-Za-z0-9，并将其放入你的rails项目的application_helper.rb当中，这样就可以在项目启动以后覆盖rails系统类库的定义：


  AUTO_LINK_RE = %r{
                        (                          # leading text
                          <\w+.*?>|                # leading HTML tag, or
                          [^=!:'"/]|               # leading punctuation, or 
                          ^                        # beginning of line
                        )
                        (
                          (?:https?://)|           # protocol spec, or
                          (?:www\.)                # www.*
                        ) 
                        (
                          [-0-9A-Za-z_]+           # subdomain or domain
                          (?:\.[-0-9A-Za-z_]+)*    # remaining subdomains or domain
                          (?::\d+)?                # port
                          (?:/(?:(?:[~0-9A-Za-z_\+%-]|(?:[,.;:][^\s$]))+)?)* # path
                          (?:\?[0-9A-Za-z_\+%&=.;-]+)?     # query string
                          (?:\#[0-9A-Za-z_\-]*)?   # trailing anchor
                        )
  }x unless const_defined?(:AUTO_LINK_RE)

  def auto_link_urls(text, href_options = {})
    extra_options = tag_options(href_options.stringify_keys) || ""
    text.gsub(AUTO_LINK_RE) do
      all, a, b, c = $&, $1, $2, $3
      if a =~ /<a\s/i # don't replace URL's that are already linked
        all
      else
        text = b + c
        text = yield(text) if block_given?
        %(#{a}<a href="#{b=="www."?"http://www.":b}#{c}"#{extra_options}>#{text}</a>)
      end
    end
  end

OK，搞定了，这下auto_link可以正确截断中文了。

robbin

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
JavaEye3.0开发手记之二－ rails的UTF-8支持造成的正则表达式问题

rails的ActionView::Helpers::TextHepler模块提供了很多实用的方法，这些方法对于论坛类应用非常有用，例如auto_link这个方法可以自动检测传入字符串当中的URL，并将其自动转换为HTML超链接格式，这对于显示帖子的内容来说很不错。但是在开发JavaEye3.0的时候，却发现auto_link有bug，一旦帖子当中的URL后面紧跟中文的话，auto_lin...
复制链接

扫一扫