Java爬虫入门简介(一) —— HttpClient请求及其使用方法

原文地址:http://www.datalearner.com/blog/1051501160659926

数据是科研活动重要的基础。本系列博客将讲述如何使用Java工具获取网络的数据。


博客系列

Java爬虫入门简介(一) —— HttpClient请求(本文)
Java爬虫入门简介(二) —— Jsoup解析HTML页面


首先,我们讲述一下爬虫的基本原理。爬虫的基本原理很简单,就是利用程序访问互联网,然后将数据保存到本地中。我们都知道,互联网提供的服务大多数是以网站的形式提供的。我们需要的数据一般都是从网站中获取的,如电商网站商品信息、商品的评论、微博的信息等。爬虫和我们手动将看到的数据复制粘贴下来是类似的,只是获取大量的数据靠人工显然不太可能。因此,需要我们使用工具来帮助获取知识。使用程序编写爬虫就是使用程序编写一些网络访问的规则,将我们的目标数据保存下来。接下来,让我们开始从头搭建一个爬虫的案例。

一、环境的准备

这里的环境就是指开发环境,本博客将使用Java编写爬虫程序,因此,需要构建Java的编程环境。需要安装的软件包括(注意,我的电脑使用的是windows X64的程序,请选择对应的JDK版本,要使用8.0及以上):
1、JDK 8.0: http://download.oracle.com/otn-pub/java/jdk/8u144-b01/090f390dda5b47b9b721c7dfaa008135/jdk-8u144-windows-x64.exe
2、IntelliJ IDEA: https://download.jetbrains.8686c.com/idea/ideaIC-2017.2.exe

JDK的安装和环境变量的配置网上有很多,就不说了。IntelliJ IDEA是个傻瓜式的安装,基本不会有问题。也不说了。

二、创建工程

安装好环境后,我们打开IntelliJ IDEA,然后创建一个Maven工程,Group Id和Artifact Id自己随便写没关系的。创建完之后我们的目录就如下图所示了。




好了,下面我们就开始编写爬虫了。

三、第一个示例

首先,假设我们需要爬取数据学习网站上第一页的博客(

评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值