Nokogiri 中文乱码的几种情况

最新推荐文章于 2024-03-20 09:55:20 发布

春如夏花

最新推荐文章于 2024-03-20 09:55:20 发布

阅读量1.5k

点赞数

分类专栏： Ruby 文章标签： ruby url html sql 浏览器服务器

Ruby 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

第一种情况，open的网站参数有中文

     Ruby代码 
      
url="http://book.douban.com/subject_search?search_text=SQL语言艺术=1001"  
Nokogiri::HTML(open(url))

就会报错，因为浏览器打包给服务器发送参数的时候是经过编码的，所以我们也要给汉字经过一次编码，只需在这两句中间加上一句就可以了

     Ruby代码 
      
url=URI.escape(url)

这样 rul 字符串就被编码成这样：sql%E8%AF%AD%E8%A8%80%E8%89%BA%E6%9C%AF就没问题了
注意：上边的编码是吧一个汉字转换成三个字节语 -》%E8%AF%AD（看百分号就知道到了）如果你要抓取的网站编码是GBK 那么要把它转换成一个汉字对应成 2个字节，%E8%AF 。

来自这里

第二种情况，自己网站是utf-8，open的网站是gb2312有中文

     Ruby代码 
      
doc = Nokogiri::HTML.parse(open("http://www.soso.cn/"), nil, "gb2312")    
@links = doc.css("a")

出自虎炮回答

第三种是需要 Iconv转换

目标网页是gb2312编码,有些页面能采回来,有些又提示有无效的字符编码
Ruby代码

     Ruby代码 
      
doc = Nokogiri::HTML(open(url))

改为

     Ruby代码 
      
doc = Iconv.iconv("UTF-8","GB2312",Nokogiri::HTML(open(url)))

     Ruby代码 
      
      
     
   
url = "http://www.hishibo.cn"    
doc = Nokogiri::HTML(open(url))    
doc.css("h3").each do |c|    
  puts Iconv.iconv("GBK//IGNORE", "UTF-8//IGNORE", c.content)      
end