今天下午写爬虫,目标网站是个西班牙站点,开始的时候没当回事,结果在爬一个PDF文件的时候,遇到了问题:Chrome中的PDF与程序得到的PDF内容不一致,见下图:
由于本人不认识西班牙语,开始的时候一直以为由于程序得到的文件的字节流有问题而导致解码错误,猜测了很多方面,包括GZIP压缩、响应格式、文件缓存等,尝试了一下午,还是没有解决。吃过晚饭后,注意到Chrome中的请求首部:Accept-Language,这时才察觉到可能是目标网站进行了国际化。在程序中添加这个首部,果然恢复了正常。
今天下午写爬虫,目标网站是个西班牙站点,开始的时候没当回事,结果在爬一个PDF文件的时候,遇到了问题:Chrome中的PDF与程序得到的PDF内容不一致,见下图:
由于本人不认识西班牙语,开始的时候一直以为由于程序得到的文件的字节流有问题而导致解码错误,猜测了很多方面,包括GZIP压缩、响应格式、文件缓存等,尝试了一下午,还是没有解决。吃过晚饭后,注意到Chrome中的请求首部:Accept-Language,这时才察觉到可能是目标网站进行了国际化。在程序中添加这个首部,果然恢复了正常。
转载于:https://juejin.im/post/5cd5542251882518f75caaa1