python显式引用_使用Python下载URL中未显式引用的文档

最新推荐文章于 2021-11-21 09:58:33 发布

终日而思一

最新推荐文章于 2021-11-21 09:58:33 发布

阅读量93

点赞数

文章标签： python显式引用

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_31082403/article/details/113671373

版权

在这种情况下，您所说的“URL中未显式引用的文档”似乎就是所谓的“重定向”。基本上，服务器会告诉您必须从另一个URL获取文档。通常，python的urllib会自动遵循这些重定向，这样您就得到了正确的文件。(而且，正如其他人已经提到的那样，您可以检查响应的mime类型头，看看它是否是pdf)。在

但是，有问题的服务器在这里做了一些奇怪的事情。请求url，它会将您重定向到另一个url。你请求另一个网址，它会再次重定向你。。。到同一个网址！再说一次。。。再说一次。。。在某种程度上，urllib认为这已经足够了，并将停止跟踪重定向，以避免陷入无休止的循环中。在

那么，当你使用你的浏览器时，你怎么能得到pdf文件呢？因为显然，服务器只会在启用cookies的情况下提供pdf。(为什么？你必须问负责服务器的人…)如果你没有cookie，它会永远重定向你。在

(检查urllib2和cookielib模块以获得对cookies的支持，this tutorial可能会有所帮助)

至少，我认为这是导致问题的原因。我还没试过用饼干做。也可能是服务器不“希望”提供pdf，因为它检测到您没有使用“普通”浏览器(在这种情况下，您可能需要修改用户代理头)，但这是一种奇怪的方式。所以我猜它是在某个地方使用“会话cookie”，如果你还没有，就继续尝试重定向。在

终日而思一

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
python显式引用_使用Python下载URL中未显式引用的文档

在这种情况下，您所说的“URL中未显式引用的文档”似乎就是所谓的“重定向”。基本上，服务器会告诉您必须从另一个URL获取文档。通常，python的urllib会自动遵循这些重定向，这样您就得到了正确的文件。(而且，正如其他人已经提到的那样，您可以检查响应的mime类型头，看看它是否是pdf)。在但是，有问题的服务器在这里做了一些奇怪的事情。请求url，它会将您重定向到另一个url。你请求另一个网址...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。