Java爬虫-使用HttpClient+Jsoup实现简单的爬虫爬取文本

最新推荐文章于 2024-05-03 17:19:41 发布

lytao123

最新推荐文章于 2024-05-03 17:19:41 发布

阅读量665

点赞数

分类专栏： # Java 爬虫 ➤ 编程语言文章标签： Java爬虫 HttpClient Jsoup

本文链接：https://blog.csdn.net/qq_24598601/article/details/81134818

版权

➤ 编程语言同时被 2 个专栏收录

16 篇文章 1 订阅

订阅专栏

Java 爬虫

2 篇文章 0 订阅

订阅专栏

package com.httpclient;

import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class MyJsoup {

	/**
	 * 需求：使用Jsoup解析网页源码
	 * @author ouyang
	 * @since 20180630
	 * @param args
	 */
	public static void main(String[] args) {
		
		String url = "http://www.xaufe.edu.cn";
		
		//使用Jsoup向http://www.xaufe.edu.cn/发送请求
		Document doc = null;
		try {
			doc = Jsoup.connect(url)
					.userAgent("Mozilla")
					.cookie("auth", "token")
					.timeout(3000)
					.get();
		} catch (IOException e) {
			e.printStackTrace();
		}
		
		//Jsoup使用类型css，jquery选择器的方式获取元素节点
		Elements elements = doc.select("#top2_23 a");
		
		for(Element element : elements ) {
			System.out.println(element.text() + ": " + url+element.attr("href"));
		}
		
	}
	
}

HttpClient+Jsoup获取网站的全部有用的链接，直接附上代码：

package com.httpclient;

import java.io.IOException;

import org.apache.http.HttpHost;
import org.apache.http.HttpResponse;
import org.apache.http.ParseException;
import org.apache.http.client.HttpClient;
import org.apache.http.client.config.RequestConfig;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class MyHttpClient {
	
	/**
	 * 需求：使用httpClient爬取网站数据
	 * @author ouyang
	 * @since 20180630
	 * @param args
	 */
	public static void main(String[] args) {
		try {
			getTagA();
		} catch (ParseException | IOException e) {
			e.printStackTrace();
		}
	}
	
	public static void getTagA() throws ParseException, IOException {
		//要爬取的网站
		String url = "http://www.xaufe.edu.cn";
		
		//创建HttpClient对象
		HttpClient httpClient = HttpClients.createDefault();
		
		//大部分爬虫url都是get请求，创建get请求对象
		HttpGet httpGet = new HttpGet(url);
		
		/*
		 * 设置响应时间，设置请求超时，设置代理服务器，
		 * 防止网站识别你是爬虫软件进而拉黑禁止访问
		 */
		RequestConfig requestConfig = RequestConfig.custom()
				.setConnectTimeout(5000)  			//设置响应时间
				.setConnectionRequestTimeout(5000)  //设置请求超时
				.setProxy(new HttpHost("222.182.56.29", 8118))   //设置代理服务器(网上有)
				.build();
		httpGet.setConfig(requestConfig);
		
		//设置头信息，不然请求不到网页
        httpGet.setHeader("Accept-Language", "zh-CN,zh;q=0.8");
        httpGet.setHeader("User-Agent", 
        		"Mozilla/5.0 (Windows NT 6.1; rv:6.0.2) Gecko/20100101 Firefox/6.0.2");  
		
		
		//向http://www.xaufe.edu.cn/发起请求，获取网页信息
		String content = "";
		HttpResponse httpResponse = httpClient.execute(httpGet);
		content = EntityUtils.toString(httpResponse.getEntity(), "GB2312");
		
		//System.out.println(content);
		
		//加上用Jsoup解析网页
		Document doc = Jsoup.parse(content);
		
		//Jsoup使用类型css，jquery选择器的方式获取元素节点
		Elements elements = doc.select("a"); //获取页面上所有a标签
		
		for(Element element : elements ) {
			String target = element.text();
			String src = element.attr("href");
			if(target != null && !"".equals(target) && !"".equals(src)) {
				if(src.contains("http")) {
					System.out.println(target + ": " + src);
				} else {
					System.out.println(target + ": " + url+src);
				}
				
			}
			
		}
	}

}

##四、学有所思，欢迎大家评论留言
####1、怎么获取列表的数据，因为列表有分页？
####2、抓取的url是文件流（图片，视频），应该要怎样做处理？
####3、怎么时爬虫一直爬下去，其中怎么让爬取效率更高？

HttpClient详细解释：https://blog.csdn.net/zhuwukai/article/details/78644484
Jsoup常用方法功能介绍：https://blog.csdn.net/key_mql/article/details/55522325

lytao123

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
Java爬虫-使用HttpClient+Jsoup实现简单的爬虫爬取文本

一、工具介绍 HttpClient是Apache Jakarta Common下的子项目，用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包，并且它支持HTTP协议最新的版本和建议。HttpClient已经应用在很多的项目中，比如Apache Jakarta上很著名的另外两个开源项目Cactus和HTMLUnit都使用了HttpClient。 HttpClient下载地址...
复制链接

扫一扫