Java使用Jsoup爬虫获取网站内容（一）简单案例

最新推荐文章于 2023-01-19 11:55:30 发布

奋斗的胡萝卜

最新推荐文章于 2023-01-19 11:55:30 发布

阅读量416

点赞数

分类专栏： Java爬虫文章标签： java http

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/qq_41816068/article/details/105126300

版权

Java爬虫专栏收录该内容

6 篇文章 0 订阅

订阅专栏

Jsoup爬虫获取网站内容简单案例

jsoup【官网中文文档】是一款 Java的HTML解析器，通过创建HttpClient对象并向指定的URI网址发送请求并获取响应的内容，并对响应内容进行进一步的解析来进一步获取有价值的主要内容。

开发工具： IDEA，Maven，JDK1.8；
pom依赖：

<dependency>
      <groupId>org.apache.httpcomponents</groupId>
      <artifactId>httpclient</artifactId>
      <version>4.5.2</version>
</dependency>

3 代码展示：

import org.apache.http.HttpEntity;
import org.apache.http.client.methods.CloseableHttpResponse;
import org.apache.http.client.methods.HttpGet;
import org.apache.http.impl.client.CloseableHttpClient;
import org.apache.http.impl.client.HttpClients;
import org.apache.http.util.EntityUtils;

import java.io.IOException;

public class CrawlerFirst {
	public static void main(String[] args) throws IOException {
		//1创建HttpClient对象
		CloseableHttpClient closeableHttpClient=HttpClients.createDefault();
		//2创建请求
		String uri="http://www.kuwo.cn";
		HttpGet httpGet=new HttpGet(uri);
		//3发起请求并获得响应
		CloseableHttpResponse closeableHttpResponse=closeableHttpClient.execute(httpGet);
		//4解析响应并获取数据
		//首先判断状态码，200表示成功
		if(closeableHttpResponse.getStatusLine().getStatusCode()==200){
			//获取响应体,并给出编码
			HttpEntity httpEntity= closeableHttpResponse.getEntity();
			String content=EntityUtils.toString(httpEntity,"utf8");
			System.out.println(content);
		}

	}
}

奋斗的胡萝卜

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
Java使用Jsoup爬虫获取网站内容（一）简单案例

Java使用Jsoup爬虫获取网站内容（一）简单案例Jsoup爬虫环境准备功能快捷键合理的创建标题，有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能，丰富你的文章UML 图表FLowchart流程图导出与导入导出导...
复制链接

扫一扫

专栏目录