Server returned HTTP response code: 403 for URL: http://blog.csdn.net


在使用Jsoup抓取CSDN博客数据时候报http403错误,这是由于CSDN博客服务器设置了访问权限

如果是服务器端禁止抓取,那么这个你可以通过设置User-Agent来欺骗服务器

connection.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");

利用这个原理,Jsoup代码稍作调整即可:

Connection connection = Jsoup.connect(url);
connection.userAgent("Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
Document doc = connection.get();




阅读更多
个人分类: android java J2EE
上一篇jsoup选择器来抓取网页中的数据
下一篇Android异步消息处理 Handler Looper MessageQueue
想对作者说点什么? 我来说一句

没有更多推荐了,返回首页

关闭
关闭
关闭