心血来潮就想学爬虫,然后就去找看。然后知道了HttpURLConnection,用的时候会出现一个常见的错误。当然是跟着网上找到的例子代码用的时候。
错误就是java.io.FileNotFoundException: http://www.baidu.com
当然错误的不是百度的链接,而是java.io.FileNotFoundException
百度一下之后,试了五六种方法都没有用。然后谷歌了一下,找到了答案。一个不知道是哪国的前辈给出了答案,大概就是百度那边识别出来了你可能要爬他,所以你要骗他们,让他们以为访问url的是浏览器。下面是骗子们,啊,是代码。
hConnection.setRequestProperty("User-Agent","Mozilla/5.0 ( compatible ) ");
hConnection.setRequestProperty("Accept","*/*");
源码如下,在源码中我注释掉了上面的两行代码,用的人只要去掉注释就可以成功的获取url的内容了。
声明:源码是在一篇博客上抄的,所以如果侵权的话,请告知我修改或者删除。当然源码里没有我注释掉的那两行。</