今天在处理抓取内容的时候,当采用iconv进行编码转换的时候,发现结果会中断,猜是字符集的问题,考虑怎么跳过目标字符集不存在的字符,查手册发现iconv的函数只有三个参数,好像不行,然后查网上有人说可以,但是很奇怪怎么实现,最后发现英文描述有说可以加标识到目标编码后面:“TRANSLIT”,很郁闷怎么加呢?原来是先加“//”,真是郁闷,竟然有这样的设计
原型: $txtContent = iconv("utf-8",'GBK',$txtContent);
特殊参数:iconv("UTF-8","GB2312//IGNORE",$data)
原型: $txtContent = iconv("utf-8",'GBK',$txtContent);
特殊参数:iconv("UTF-8","GB2312//IGNORE",$data)
两个可选的辅助参数:TRANSLIT(默认,无法转换就全部为空)和IGNORE ,(其中IGNORE 就是说遇到无法转换的就跳过)。
但是发现上面还是少了不能转换的字,测底处理怎么办呢?
采用下面函数可以处理
mb_convert_encoding这个函数是用来转换编码的 开启这个函数低版本需要开启mb扩展,gbk to utf-8,
echo mb_convert_encoding("妳係我的友仔", "UTF-8", "GBK");