javascript php 中文乱码,PHP采集HTML后中文乱码，转换编码为UTF-8的方法

aganztracy

于 2021-03-10 00:54:48 发布

阅读量262

点赞数

HTML字符集是CP936转UTF-8,GB2312转UTF-8,GBK转UTF-8,PHP采集HTML后中文乱码，转换编码为UTF-8的方法

这个任务最初是使用QueryList插件来采集分析页面的，但是后来发现采集入库的数据中有乱码，查看分析了一下，全部是源页面字符集为非utf-8的页面，那么就利用QueryList自有的方法来转码。

$result = $ql->get('http://'.$url, null, $options)

->rules($rules)

->encoding('UTF-8','GB2312')

->removeHead()

->query()

->getData();

0

1

2

3

4

5

$result=$ql->get('http://'.$url,null,$options)

->rules($rules)

->encoding('UTF-8','GB2312')

->removeHead()

->query()

->getData();

QueryList官方文档中介绍，使用encoding('UTF-8','GB2312')方法可以解决，但是实际情况是页面字符集多种多样，刚才测试了三个网站三种编码，CP936,EUC-CN,GBK，真是玩死朕了。那么官方还说如果还是不能解决乱码问题就把removeHead()函数也挂上，没挂之前我感觉它应该是不好使，那也要试一下才能真正的确定啊，试了一下，结果确实还是乱码。

QueryList有时有点诡异，采集时有时会缺内容，不知所以然。

此路不通，只能另寻他途。

思路就是，采集部分就不使用QueryList，使用自己写的Curl吧，之后分析编码，转码，再交给QueryList去分析HTML，再提取相关数据。

下面是各种字符集转为UTF-8编码的函数。

/**

* 采集的HTML转码

* 事由：因为采集到非UTF-8的页面会出现中文乱码，又因为会采集不特定的多个网站，只能先判断页面编码后转码

* @param string $html

* @param string $charset 如果此值为 true，则返回此HTML的字符集

* @return null|string|string[]

*/

function htmlConvertEncode($html, $charset='UTF-8')

{

// 检测编码

$encode = mb_detect_encoding($html, array("ASCII","UTF-8","GB2312","GBK","CP936","BIG5","EUC-CN"));

// 转码

if($encode != $charset){

return mb_convert_encoding($html, 'UTF-8', $encode);

}

// 返回字符集

if($charset === true){

return $encode;

}

return $html;

}

0

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

/**

* 采集的HTML转码

* 事由：因为采集到非UTF-8的页面会出现中文乱码，又因为会采集不特定的多个网站，只能先判断页面编码后转码

* @param string $html

* @param string $charset 如果此值为 true，则返回此HTML的字符集

* @return null|string|string[]

*/

functionhtmlConvertEncode($html,$charset='UTF-8')

{

// 检测编码

$encode=mb_detect_encoding($html,array("ASCII","UTF-8","GB2312","GBK","CP936","BIG5","EUC-CN"));

// 转码

if($encode!=$charset){

returnmb_convert_encoding($html,'UTF-8',$encode);

}

// 返回字符集

if($charset===true){

return$encode;

}

return$html;

}

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
javascript php 中文乱码,PHP采集HTML后中文乱码，转换编码为UTF-8的方法

HTML字符集是CP936转UTF-8,GB2312转UTF-8,GBK转UTF-8,PHP采集HTML后中文乱码，转换编码为UTF-8的方法这个任务最初是使用QueryList插件来采集分析页面的，但是后来发现采集入库的数据中有乱码，查看分析了一下，全部是源页面字符集为非utf-8的页面，那么就利用QueryList自有的方法来转码。$result = $ql->get('http://'...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。