抓取中应该考虑GB编码的问题

最新推荐文章于 2024-08-08 15:09:16 发布

iteye_17257

最新推荐文章于 2024-08-08 15:09:16 发布

阅读量103

点赞数

分类专栏：网络/网页文章标签：爬虫

网络/网页专栏收录该内容

10 篇文章 0 订阅

订阅专栏

今天，测试的同学在测试我的爬虫的时候发现了一些‘?’的字符，也就是无法识别编码的字符。开始我很诧异，毕竟我用了自动编码识别的很成熟的架构，为虾米会有这种字符？仔细分析了一下页面，页面的编码是'gbk'而用我的程序识别出来是'gb2312'因为分析只采集了前面100个字符作为样本，所以识别出来的是'gb2312'。因为'gb2312'是属于'gbk'，只包括一些常见汉字，如果万一有一个偏的汉字出现那就只能沦为现实为'?'号的下场了~

所以想要做好抓取必须大致的了解编码：

[b]GB2312[/b]
GB 2312或GB 2312-80是一个简体中文字符集的中国国家标准，全称为《信息交换用汉字编码字符集·基本集》，又称为GB0，由中国国家标准总局发布，1981年5月1日实施。GB2312编码通行于中国大陆；新加坡等地也采用此编码。中国大陆几乎所有的中文系统和国际化的软件都支持GB 2312。　　GB 2312标准共收录6763个汉字，其中一级汉字3755个，二级汉字3008个；同时，GB 2312收录了包括拉丁字母、希腊字母、日文平假名及片假名字母、俄语西里尔字母在内的682个全角字符。　　GB 2312的出现，基本满足了汉字的计算机处理需要，它所收录的汉字已经覆盖中国大陆99.75%的使用频率。　　对于人名、古汉语等方面出现的罕用字，GB 2312不能处理，这导致了后来GBK及GB 18030汉字字符集的出现。

[b]GBK[/b]
[u]基本简介[/u]
GB码，全称是GB2312-80《信息交换用汉字编码字符集基本集》，1980年发布，是中文信息处理的国家标准，在大陆及海外使用简体中文的地区（如新加坡等）是强制使用的唯一中文编码。P-Windows3.2和苹果OS就是以GB2312为基本汉字编码， Windows 95/98则以GBK为基本汉字编码、但兼容支持GB2312。GB码共收录6763个简体汉字、682个符号，其中汉字部分：一级字3755，以拼音排序，二级字3008，以偏旁排序。该标准的制定和应用为规范、推动中文信息化进程起了很大作用。　　GBK编码是中国大陆制订的、等同于UCS的新的中文编码扩展国家标准。GBK工作小组于1995年10月，同年12月完成GBK规范。该编码标准兼容GB2312，共收录汉字21003个、符号883个，并提供1894个造字码位，简、繁体字融于一库。　　有些汉字用五笔和拼音都打不出来，如：溙（五笔IDWI），须调出GBK字符集才能打出这个字。极品五笔中可右击输入法图标，设置，属性中选GBK字符集。极点五笔中可点击工具条中相关图标进行转换。
[u]计算公式[/u]
　　GBK码对字库中偏移量的计算公式为：　　[(GBKH-0xB0)*0x5E+(GBKL-0xA1)]*(汉字离散后每个汉字点阵所占用的字节)

[b]gb18030[/b]
国家标准GB18030-2000《信息交换用汉字编码字符集基本集的扩充》是我国继GB2312-1980和GB13000-1993之后最重要的汉字编码标准，是我国计算机系统必须遵循的基础性标准之一。目前，GB18030有两个版本：GB18030-2000和GB18030-2005。GB18030-2000是GBK的取代版本，它的主要特点是在GBK基础上增加了CJK统一汉字扩充A的汉字。GB18030-2005的主要特点是在GB18030-2000基础上增加了CJK统一汉字扩充B的汉字。

依照上面的信息，我们大致了解了GB字符发展的轮廓，个人建议识别为GB的编码统一用
gb18030 去解码~就不会出现我上面遇到的问题了~
OK，结案~

本文章为原创文章，转载请注明出处~

iteye_17257

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
抓取中应该考虑GB编码的问题

今天，测试的同学在测试我的爬虫的时候发现了一些‘?’的字符，也就是无法识别编码的字符。开始我很诧异，毕竟我用了自动编码识别的很成熟的架构，为虾米会有这种字符？仔细分析了一下页面，页面的编码是'gbk'而用我的程序识别出来是'gb2312'因为分析只采集了前面100个字符作为样本，所以识别出来的是'gb2312'。因为'gb2312'是属于'gbk'，只包括一些常见汉字，如果万一有一个偏的汉字出现那...
复制链接

扫一扫

专栏目录