解决爬虫中文乱码|PHP编码一分钟,改乱码半小时


各位小伙伴有经历过写完爬虫之后,满心期待抓取出成篇的数据,但结果出来的是中文乱码这种情况吗?

时隔好久没写php,再次写php爬虫就遇到中文乱码的问题,还花费了比预想更长的时间来处理,特此码一下。避免踩坑!

一、PHP文件编码

文件本身有编码格式

Linux么不谈,查看、转化文本的编码格式是挺常见的操作。而Windows中,想知道一个文件是什么编码格式,最基本的操作就是——记事本。记事本中的另存为可以查看到该文件是什么编码格式。

在这里插入图片描述
当然编辑器中也有,sublime中的文件-以…编码保存也是一样的效果。这是第一个编码,也是开发者最好改的。
在这里插入图片描述

二、CMD中的编码

Windwos cmd窗口中的编码
右键cmd标题栏,选则默认值,找到选项中的默认代码页,选择自己想要的字体。
在这里插入图片描述
当然在运行中输入regedit修改注册表编辑器的CodePage值也是可以的哈。
在这里插入图片描述

三.爬取目标网站编码

网站的编码
这个也不用多说,写关于web的爬虫的,那要爬取的网站是什么编码,心里肯定门清。
在这里插入图片描述


~.简单总结一下

编码一致的话,比如都是utf-8,那么iconv(“utf-8”,“GB2312//IGNORE”, $res)一下基本不会遇到中文乱码的问题。

在放两个都能查到的避免乱码的办法吧,也是用的比较多的。
1.php文件头添加:

<?php
header("Content-type:text/html;charset=UTF-8");

这个相当于请求头的设置,不管是curl还是request都是有的。

2.注意请求头中网站的content-encoding

<?php
curl_setopt($ch, CURLOPT_ENCODING, 'gzip');

这里不讲乱码的字符串和中文之间转换的那些东西。中文乱码,乱的就是这个编码。不止php,其他编程语言遇到了这个问题也是一样的。
就到这吧,愉快下班

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
在Python网络爬虫过程中,遇到汉字乱码问题是比较常见的情况。根据引用\[1\]中提到的方法,我可以给你提供一些解决乱码问题的方法。 首先,你可以尝试使用引用\[2\]中的方法,即对于编码为utf-8的网址,进行两次重编码。你可以使用requests库发送请求,并在获取到的响应中设置编码为'GBK',然后再将编码设置为'utf-8'。这样可以解决一些网页中文乱码的问题。 另外,你还可以尝试使用其他的编码方式来解决乱码问题。比如,可以尝试将编码设置为'gb2312',如引用\[2\]中提到的方法。这种方法适用于网址编码为'gb2312'的情况。 综上所述,解决Python爬虫中文乱码问题的步骤可以总结为: 1. 使用requests库发送请求获取网页内容。 2. 根据网页编码设置响应的编码方式,可以尝试设置为'GBK'或'gb2312'。 3. 如果仍然存在乱码问题,可以尝试进行多次编码转换,如将编码设置为'utf-8'。 希望以上方法能够帮助你解决Python爬虫中文乱码问题。如果还有其他问题,请随时提问。 #### 引用[.reference_title] - *1* [盘点3种Python网络爬虫过程中的中文乱码的处理方法](https://blog.csdn.net/i54996/article/details/120749614)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [Python爬虫中文乱码问题](https://blog.csdn.net/wvqusrtg/article/details/113742520)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值