解决爬虫中文乱码|PHP编码一分钟，改乱码半小时

最新推荐文章于 2023-02-19 23:12:56 发布

Echo FangMuMu

最新推荐文章于 2023-02-19 23:12:56 发布

阅读量384

点赞数 2

分类专栏：我爱学习文章标签： php 乱码编程语言

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/fang_mu_mu/article/details/115872402

版权

我爱学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

文章目录

一、PHP文件编码
二、CMD中的编码
三.爬取目标网站编码
*~*.简单总结一下

各位小伙伴有经历过写完爬虫之后，满心期待抓取出成篇的数据，但结果出来的是中文乱码这种情况吗？

时隔好久没写php，再次写php爬虫就遇到中文乱码的问题，还花费了比预想更长的时间来处理，特此码一下。避免踩坑！

一、PHP文件编码

文件本身有编码格式

Linux么不谈，查看、转化文本的编码格式是挺常见的操作。而Windows中，想知道一个文件是什么编码格式，最基本的操作就是——记事本。记事本中的另存为可以查看到该文件是什么编码格式。

在这里插入图片描述
当然编辑器中也有，sublime中的文件-以…编码保存也是一样的效果。这是第一个编码，也是开发者最好改的。

二、CMD中的编码

Windwos cmd窗口中的编码
右键cmd标题栏，选则默认值，找到选项中的默认代码页，选择自己想要的字体。
在这里插入图片描述
当然在运行中输入regedit修改注册表编辑器的CodePage值也是可以的哈。

三.爬取目标网站编码

网站的编码
这个也不用多说，写关于web的爬虫的，那要爬取的网站是什么编码，心里肯定门清。
在这里插入图片描述

~.简单总结一下

编码一致的话，比如都是utf-8，那么iconv(“utf-8”,“GB2312//IGNORE”, $res)一下基本不会遇到中文乱码的问题。

在放两个都能查到的避免乱码的办法吧，也是用的比较多的。
1.php文件头添加：

<?php
header("Content-type:text/html;charset=UTF-8");

这个相当于请求头的设置，不管是curl还是request都是有的。

2.注意请求头中网站的content-encoding

<?php
curl_setopt($ch, CURLOPT_ENCODING, 'gzip');

这里不讲乱码的字符串和中文之间转换的那些东西。中文乱码，乱的就是这个编码。不止php，其他编程语言遇到了这个问题也是一样的。
就到这吧，愉快下班

文章目录

一、PHP文件编码
二、CMD中的编码
三.爬取目标网站编码
*~*.简单总结一下

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
解决爬虫中文乱码|PHP编码一分钟，改乱码半小时

文章目录一、PHP文件编码二、CMD中的编码三.爬取目标网站编码*~*.简单总结一下各位小伙伴有经历过写完爬虫之后，满心期待抓取出成篇的数据，但结果出来的是中文乱码这种情况吗？时隔好久没写php，再次写php爬虫就遇到中文乱码的问题，还花费了比预想更长的时间来处理，特此码一下。避免踩坑！一、PHP文件编码文件本身有编码格式Linux么不谈，查看、转化文本的编码格式是挺常见的操作。而Windows中，想知道一个文件是什么编码格式，最基本的操作就是——记事本。记事本中的另存为可以查看到该文件是什么编码
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。