抓取网页时转换字符集出现问题(问题已解决)

最新推荐文章于 2021-04-05 16:50:40 发布

w_t_bll

最新推荐文章于 2021-04-05 16:50:40 发布

阅读量143

点赞数

文章标签： Ruby MySQL Rails .net

用ruby写个网页抓取的小东东，遇到问题:

环境:ubuntu8.04+netbeans6.1+ruby1.8.6

在ruby中使用Net::HTTP.get_response抓取一个GB2312编码的网页后转换成utf8全是乱码,主要代码部分如下

resp=Net::HTTP.get_response(URL,URI)
body=resp.body[0,resp.size-1]
r=Iconv.iconv("UTF-8//IGNORE","GB2312//IGNORE",body)

接下来我要使用r中的内容

但是发现里面的内容全是乱码，直接写入数据库写不进去，提示有非法字符。

如果要抓取的网站的编码是utf-8，不用iconv转换，直接存入数据库，完全正常。

请问：

1、问题出在哪里？是Iconv转换有问题？还是get_response时就要做什么处理？

2、另：ruby直接连接mysql如何指定使用utf-8连接？（非rails）

问题已解决：原来它服务器端采用gzip压缩传输的，客户端gunzip一下就行了。 dbh.query("SET NAMES 'utf8'") 发送给mysql即以utf8连接了

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

w_t_bll

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

.NET 网页或json数据抓取系列：2 - 动态字符集转换

u014692760的博客

08-29

262

动态字符集转换

Ruby实现网页图片抓取

09-21

本文给大家分享的是个人使用ruby编写的抓取网页图片的代码，十分的简单实用，有需要的小伙伴可以参考下。

参与评论您还未登录，请先登录后发表或查看评论

浅析Ruby中的类对象的概念

09-22

主要介绍了Ruby中的类对象的概念,是Ruby学习当中的基础知识,需要的朋友可以参考下

ruby实现文件对比资料

12-23

ruby实现文件对比资料收集，看完之后写一个文件对比的脚本或者输出报告没有问题，可以看看，

Ruby-Ancestry将ActiveRecord模型组织成一个树状结构

08-15

Ancestry - 将ActiveRecord模型组织成一个树状结构

RubySource：将Ruby，Rails，C＃和ASP.NET放在上下文中

09-12

我注意到有相当多的.NET开发人员之间的误解，以什么Ruby或Rails的是，怎么那些比较他们来到熟悉和喜爱的.NET的东西。我知道我不明白它自己一会儿。下面的意见，从我的前两个职位绘制（从.NET切换到Ruby和.NET开发直视Ruby on Rails的或Ruby为什么）有助于说明我的观点：“如果看一下Ruby，但没有感谢，.NET仍然是我的方式。” “......在那里演示或Ruby ...

python抓取网页时字符集转换问题处理方案分享

12-25

这时候需要制定字符串的编码，如果采集网页的编码是gb2312，而我们的数据库是utf-8的，这样不做任何处理直接插入数据库可能会乱码(没测试过，不知道数据库会不会自动转码)，我们需要手动将gb2312转换成utf-8。...

Node.js抓取中文网页乱码问题和解决方法

10-24

解决这个问题的方法是在抓取到数据后，使用iconv-lite库来转换字符编码。iconv-lite是一个纯JavaScript实现的字符集转换库，它支持将Buffer转换成不同编码格式的字符串。例如，当我们抓取一个使用GB2312编码的网页...

python抓取并保存html页面时乱码问题的解决方法

09-21

此外，使用适当的库和模块（如`chardet`和`BeautifulSoup`），以及确保在读写文件时指定正确的编码，也是解决问题的关键。在实践中，应该养成良好的编码处理习惯，以确保数据的准确性和一致性。

用javascript解决外部数据抓取中的乱码问题

10-30

### 使用JavaScript解决外部数据抓取中的乱码问题在现代Web开发中，经常需要从不同的源获取数据。这些数据可能来自于API、RSS订阅、HTML页面等，并且它们使用的编码方式可能与我们的应用不同，比如常见的GB2312...

shizoid：Ruby上的Shizoid聊天机器人

02-05

用于电报的Shizoid聊天机器人。受 Bot启发。抱歉，我现在无法为所有人提供实例。您可以自己运行;） cap production deploy:setup 编辑配置 cap production deploy RAILS_ENV=production bundle exec rake db:create 和:) cap production deploy

ruby ssh备份远程服务器脚本

11-26

ruby ssh备份远程服务器脚本,主要是学习net/scp这个模块

ruby-pingyin ruby中将中文转化成拼音

06-02

要求按照姓名的首字母查找教师。同时拼音的首字母是要来自数据库中现已近存在的姓名的姓氏首字母。简单的说就是有这样一些人再数据库中。如有：张三，王五，李四，赵六，李平，刘倩等。在前端要显示的是 Z , W , L（姓氏的首字母）。同时点击一个首字母的时候要列出所有姓是该首字母的人的姓名。即当点击Z的时候要出来张三，赵六。L时出来李四，李平，刘倩。这样就用到了要从数据库中提取姓名姓氏首字母的功能。（即中文-->拼音-->首字母）。由于以前没有遇到类似问题，就google。终于找到一个好用的东西。ruby-pinyin。现在介绍给大家。里面自带api。用法也很简单。在rails 中把 pinyin.rb 及 dict 放到lib目录中。在模型中引入文件。 require "pinyin" 按后实例化一个pinyin py = PinYin.instance py.to_pinyin_abbr(" 刘德华") #=> ldh py.to_permlink('中文轉漢語拼音') #=> "zhong-wen-zhuan-han-yu-pin-yin" py.to_pinyin('中文轉漢語拼音',separator = '-', tone = true) #=> "zhong1-wen2-zhuan3-han4-yu3-pin1-yin1" py.to_pinyin_abbr_else(' 劉德華') #=> "liudh"

Ruby中执行Linux shell命令的六种方法详解

09-15

主要介绍了Ruby中执行Linux shell命令的六种方法详解,这些方法包括exec、system、反引号、IO、Open3、Open4等命令,需要的朋友可以参考下

ruby中文文档（ruby入门级别教程）

12-21

包括ruby用户指南，RGSS入门教程，Programming Ruby，Ruby参考手册共4部分内容。 chm格式

JavaWeb学习笔记（HTML语言）

a820619012的博客

09-15

321

HTML语言HTML语言HTML简介 HTML语言 HTML简介全称为HyperText Markup Language,译为超文本标记语言，不是一种编程语言，是一种描述性的标记语言，用于描述超文本中内容的显示方式。比如字体什么颜色，大小等。 Html就是超文本标记语言的简写，是最基础的网页语言。 Html是通过标签来定义的语言，代码都是由标签所组成。 HTML的规范：一个html文件开始标签和结束的标签。例如： <html> </html> html包含两部分内容： 1

Ruby on Rails，使用destroy方法删除ActiveRecord对象

边晓宇@CSDN

10-19

8047

欢迎来我的博客http://blog.csdn.net/abbuggy/article/details/8091639 在之前的《Ruby on Rails，使用new和create创建ActiveRecord对象及他们之间的区别》中学习到，通过new和create命令创建及持久化ActiveRecord对象；《Ruby on Rails，使用save和update_attributes

HTML5中的＜ruby＞、＜rt＞、＜rp＞标签

qq_44849271的博客

04-05

1033

HTML5中的拼音标签 <ruby>、<rt>、<rp>是HTML5新推出的标签该标签的使用能设置字体拼音 Demo： <!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8"> <meta name="viewport" content="width=device-width, initial-scale=1.0">

使用kettle从英文字符集的数据库中抓取数据到中文字符集的数据库中