爬虫
lf_breeze
这个作者很懒,什么都没留下…
展开
-
获取url资源的几种方式
1:HttpClient的get方式(程序中使用的HttpClient为4.3.1版本) public static String doGet(String src,String unicode){ CloseableHttpResponse response = null; HttpEntity entity = null; InputSt原创 2016-07-18 17:34:18 · 3066 阅读 · 0 评论 -
关于HttpClient中超时设置
最近用到了HttpClient写爬虫,可能我有新版本强迫症,老是喜欢用新版本的东西(虽说新版本不一定好用),然后就用了HttpClient 4.3。HttpClient这货和Lucene一样,每个版本的API都变化很大,这有点让人头疼。就好比创建一个HttpClient对象吧,每一个版本的都不一样,3.X是这样的HttpClient httpClient=new Default转载 2016-07-18 17:43:34 · 470 阅读 · 0 评论 -
爬虫遇到图片禁止访问(如403)
今年一直在做爬虫,有时候碰到图片禁止访问的情况,以前一直以为不能解决。前两天在网上看了下资料。对于低级的图片防盗链可以通过改变Referer来解决。访问图片资源: url = new URL(src); URLConnection con = url.openConnection(); con.setConnectTim原创 2016-07-08 16:35:16 · 8776 阅读 · 1 评论 -
关于jsoup的select()
在爬虫开发过程中发现使用jsoup的select方法是发现:当使用Elements.select()方法时,碰到相同元素时,会跳过相同元素。而使用document.select()方法是,不会出现上述情况。例: String html = "\n" + " \n" + " \n" + " \n"原创 2016-07-21 11:33:24 · 1112 阅读 · 0 评论