各位小伙伴有经历过写完爬虫之后,满心期待抓取出成篇的数据,但结果出来的是中文乱码这种情况吗?
时隔好久没写php,再次写php爬虫就遇到中文乱码的问题,还花费了比预想更长的时间来处理,特此码一下。避免踩坑!
一、PHP文件编码
文件本身有编码格式
Linux么不谈,查看、转化文本的编码格式是挺常见的操作。而Windows中,想知道一个文件是什么编码格式,最基本的操作就是——记事本。记事本中的另存为可以查看到该文件是什么编码格式。
当然编辑器中也有,sublime中的文件-以…编码保存也是一样的效果。这是第一个编码,也是开发者最好改的。
二、CMD中的编码
Windwos cmd窗口中的编码
右键cmd标题栏,选则默认值,找到选项中的默认代码页,选择自己想要的字体。
当然在运行中输入regedit修改注册表编辑器的CodePage值也是可以的哈。
三.爬取目标网站编码
网站的编码
这个也不用多说,写关于web的爬虫的,那要爬取的网站是什么编码,心里肯定门清。
~.简单总结一下
编码一致的话,比如都是utf-8,那么iconv(“utf-8”,“GB2312//IGNORE”, $res)一下基本不会遇到中文乱码的问题。
在放两个都能查到的避免乱码的办法吧,也是用的比较多的。
1.php文件头添加:
<?php
header("Content-type:text/html;charset=UTF-8");
这个相当于请求头的设置,不管是curl还是request都是有的。
2.注意请求头中网站的content-encoding
<?php
curl_setopt($ch, CURLOPT_ENCODING, 'gzip');
这里不讲乱码的字符串和中文之间转换的那些东西。中文乱码,乱的就是这个编码。不止php,其他编程语言遇到了这个问题也是一样的。
就到这吧,愉快下班