JAVA爬虫学习之单线程httpclient

爬虫介绍

爬虫就是获取网页的内容,机器获取.

本系列教程目标,使用java爬取小说网站的小说,并输出txt文档

代码:https://github.com/nalipiaoxiang/Reptile

感想

新来一个同事是做python,看他使用python爬取网页内容溜得很,所以也想用java试试,以前没听说过java爬虫,但是Google了一下,发现java的生态实在是太好了,各种爬虫,多线程,分布式,代理…几乎python有的,java也有…
废话不多说…开工

爬虫是什么

	爬虫是什么?爬虫就是机器获取网络上人想要的东西,往往几百个页面只有几条数据我们想要,直白说就是获取页面内容,
  1. httpclient
    httpclient可以理解成一个没有界面的浏览器,使用httpclient获取网页内容
  2. 上代码

使用maven,添加依赖

		<dependency>
			<groupId>org.apache.httpcomponents</groupId>
			<artifactId>httpclient</artifactId>
			<version>4.5.8</version>
		</dependency>

test01

public static void main(String[] args) {
		String url="www.baidu.com";
		CloseableHttpClient httpClient = HttpClients.createDefault();
		HttpGet httpGet = new HttpGet(url);
		CloseableHttpResponse response = httpClient.execute(httpGet);
		//注意编码,如果设置不当会出现乱码
		String html = EntityUtils.toString(response.getEntity(), "utf-8");
		System.out.println(html);
	}

这基本就是模拟浏览器访问网页,并且把网页代码给打印出来
这就是一个简单的爬虫.
下面再介绍一个解析网页的工具,使用httpclient获取了一个网页的html代码,但是大部分都不是我们想要的,如何筛选我们想要的呢?介绍一款解析网页神奇,Jsoup.能快速定位标签并获取标签内容.

  • 5
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值