最近模拟一个简单的爬虫方式,在基于java URL类时,抓取获取结果页,其中遇到这样的错误:
Server returned HTTP response code: 403 for URL:而可以使用浏览器正确访问
因为服务器的安全设置不接受Java程序作为客户端访问
解决方案:设置User Agent
即在HttpURLConnection conn=(HttpURLConnection) url.openConnection();后添加:
conn.setRequestProperty("User-Agent", "Mozilla/4.0 (compatible; MSIE 5.0; Windows NT; DigExt)");
URL的链接方式,有时候会出现connect time out的情况,这里在使用的时候要注意了。