用Nokogiri抓取页面URL中有中文的解决办法

最新推荐文章于 2023-01-28 11:57:09 发布

dingr

最新推荐文章于 2023-01-28 11:57:09 发布

阅读量185

点赞数

分类专栏： rails 配置文章标签： SQL 浏览器 HTML

rails 配置专栏收录该内容

4 篇文章 0 订阅

订阅专栏

我们在使用Nokogiri抓取网站页面的信息时，如果遇到你要抓取页面的URL里有中文，比如我们拿豆瓣为例

我们要查找豆瓣里的一本书：《sql语言艺术》他的查找URL是：http://book.douban.com/subject_search?search_text=SQL语言艺术&cat=1001

那么你直接这样写代码的时候

url="http://book.douban.com/subject_search?search_text=SQL语言艺术=1001"

Nokogiri::HTML(open(url))

就会报错，因为浏览器打包给服务器发送参数的时候是经过编码的，所以我们也要给汉字经过一次编码，只需在这两句中间加上一句就可以了

url=URI.escape(url)

这样 rul 字符串就被编码成这样：sql%E8%AF%AD%E8%A8%80%E8%89%BA%E6%9C%AF就没问题了

注意：上边的编码是吧一个汉字转换成三个字节语 -》%E8%AF%AD（看百分号就知道到了）如果你要抓取的网站编码是GBK 那么要把它转换成一个汉字对应成 2个字节，%E8%AF 。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
用Nokogiri抓取页面URL中有中文的解决办法

我们在使用Nokogiri抓取网站页面的信息时，如果遇到你要抓取页面的URL里有中文，比如我们拿豆瓣为例我们要查找豆瓣里的一本书：《sql语言艺术》他的查找URL是：http://book.douban.com/subject_search?search_text=SQL语言艺术&amp;cat=1001那么你直接这样写代码的时候 url="http://book.d...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。