Java爬虫入门简介（一） —— HttpClient请求及其使用方法

最新推荐文章于 2024-07-04 16:04:39 发布

数据学习（Datalearner）

最新推荐文章于 2024-07-04 16:04:39 发布

阅读量9.7k

点赞数 9

分类专栏：爬虫文章标签： java 爬虫数据 HttpClient

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/df19900725/article/details/76221690

版权

原文地址：http://www.datalearner.com/blog/1051501160659926

数据是科研活动重要的基础。本系列博客将讲述如何使用Java工具获取网络的数据。

博客系列

Java爬虫入门简介（一） —— HttpClient请求（本文）
Java爬虫入门简介（二） —— Jsoup解析HTML页面

首先，我们讲述一下爬虫的基本原理。爬虫的基本原理很简单，就是利用程序访问互联网，然后将数据保存到本地中。我们都知道，互联网提供的服务大多数是以网站的形式提供的。我们需要的数据一般都是从网站中获取的，如电商网站商品信息、商品的评论、微博的信息等。爬虫和我们手动将看到的数据复制粘贴下来是类似的，只是获取大量的数据靠人工显然不太可能。因此，需要我们使用工具来帮助获取知识。使用程序编写爬虫就是使用程序编写一些网络访问的规则，将我们的目标数据保存下来。接下来，让我们开始从头搭建一个爬虫的案例。

一、环境的准备

这里的环境就是指开发环境，本博客将使用Java编写爬虫程序，因此，需要构建Java的编程环境。需要安装的软件包括（注意，我的电脑使用的是windows X64的程序，请选择对应的JDK版本，要使用8.0及以上）：
1、JDK 8.0: http://download.oracle.com/otn-pub/java/jdk/8u144-b01/090f390dda5b47b9b721c7dfaa008135/jdk-8u144-windows-x64.exe
2、IntelliJ IDEA: https://download.jetbrains.8686c.com/idea/ideaIC-2017.2.exe

JDK的安装和环境变量的配置网上有很多，就不说了。IntelliJ IDEA是个傻瓜式的安装，基本不会有问题。也不说了。

二、创建工程

安装好环境后，我们打开IntelliJ IDEA，然后创建一个Maven工程，Group Id和Artifact Id自己随便写没关系的。创建完之后我们的目录就如下图所示了。

好了，下面我们就开始编写爬虫了。

三、第一个示例

首先，假设我们需要爬取数据学习网站上第一页的博客（

最低0.47元/天解锁文章

数据学习（Datalearner）

关注

9
点赞
踩
61

收藏

觉得还不错? 一键收藏
4
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。