网站分析中常常会遇到URL编码和解码的问题,而不同的站又会适用不同的编码方式。因此灵活的解码逻辑显得很需要
一、比照法(网上比较流行的编码方式)
(自命名,即解码再编码,对比结果)
使用比照法解决URL自动解码(UTF8和GB2312)是先将URL解码再编码,与原来URL对比,如果一致则为当前使用的编码方式,否则相反
存在的问题:部分编码的URL(如中文编码),解码过程没问题,二次编码则与原来不同,因为原来没有编码的部分也编了
如:
URL='/s?vit=union&rn=5&from=415c&word=%e8%8e%ab%e6%9c%a8%e5%85%b0'
decode='/s?vit=union&rn=5&from=415c&word=莫木兰'
encode(decode)='%2fs%3fvit%3dunion%26rn%3d5%26from%3d415c%26word%3d%e8%8e%ab%e6%9c%a8%e5%85%b0'
明显的URL!=encode,因此也就对比失败