java 简单网络爬虫

最新推荐文章于 2022-07-15 11:00:07 发布

付小德

最新推荐文章于 2022-07-15 11:00:07 发布

阅读量587

点赞数

分类专栏： java学习经验

本文链接：https://blog.csdn.net/qq_16143915/article/details/46012017

版权

java学习经验专栏收录该内容

12 篇文章 0 订阅

订阅专栏

最近学习了一下如何用java写客户端程序做网络爬虫，Jsoup提供对网页的解析。

处理如下异常秒招：一般情况下访问多次服务器就会报如下异常，而我们只需无限循环，获取到数据就break，否则开启线程暂停一会，直到获取数据为止

ConnectException ：指的是服务器请求超时

SocketTimeoutException:指的是服务器响应超时

private void parse(String url) {// 通过url解析网页  即获取网页数据或者超链接等。

		Document doc = null;
		Elements fl = new Elements(); //某种类型节点的集合  类似于ArrayList的集合
		while (true) {
			try {
				doc = Jsoup.connect(url).timeout(60000).get();//链接网络 将网页转化为Document对象
				fl = doc.select("div.fl");  //获取class属性为fl的节点
				break;
			} catch (IOException e) {
				e.printStackTrace();
				System.out.println("开始休息五分钟  " + new Date());
				try {
					Thread.sleep(300000);
				} catch (InterruptedException e1) {
					e1.printStackTrace();
				}
				System.out.println("结束休息  " + new Date());
				// System.exit(0);
			}
		}
	}

Jsoup解析详解：http://www.cnblogs.com/xinye/archive/2013/08/07/3243181.html

这篇文章最重要的是处理从服务器获取数据遇到异常。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

付小德

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

如何使用Java语言实现一个网页爬虫

悟已往之不谏，知来者之可追

02-02

1万+

网络上有许多信息，我们如何自动的获取这些信息呢？没错，网页爬虫~! 在这篇博文中，我将会使用java语言一步一步的编写一个原型的网页爬虫，其实网页爬虫并没有它听起来那么难。紧跟我的教程，我相信你会在马上学会，一个小时应该可以搞定，之后你就可以享受你所获得的大量数据。这次所编写的是最简单的教程，可以说是网页爬虫的hello world程序，由于仅仅是原型，之后你要花更多的时间来研究并未自己

java简单网络爬虫

02-15

Java简单网络爬虫是一种利用编程技术自动从互联网上抓取信息的程序。在这个项目中，我们专注于使用Java语言来创建一个基本的网络爬虫，它能够访问智联招聘网站，并提取出职位名称、公司名称、工作地点以及薪资等关键...

参与评论您还未登录，请先登录后发表或查看评论

Java实现爬虫

weixin_72753070的博客

07-15

2万+

关于美国历来每次飞机失事的数据，包含时间地点、驾驶员、死亡人数、总人数、事件描述，一共有12列，第一列是标题，下面一共有5268条数据。多线程中如果想设置等待状态，有一个方法可以实现wait()，如果想从等待状态唤醒，则可以使用notify()。通过Pattern和Matcher的配合，我们可以把一段内容中匹配我们要求的文字提取出来，方便我们来处理。对爬取的HTML页面来说，如果想提取连接地址，就必须找到所有超连接的标签和对应的属性。需要先自定义一个线程的操作类，在这个操作类中判断不同的状态，并且根。...

Java 网络爬虫，就是这么的简单

平头哥的技术博文

10-08

4万+

这是 Java 网络爬虫系列文章的第一篇，如果你还不知道 Java 网络爬虫系列文章，请参看学 Java 网络爬虫，需要哪些基础知识。第一篇是关于 Java 网络爬虫入门内容，在该篇中我们以采集虎扑列表新闻的新闻标题和详情页为例，需要提取的内容如下图所示：我们需要提取图中圈出来的文字及其对应的链接，在提取的过程中，我们会使用两种方式来提取，一种是 Jsoup 的方式，另一种是 httpcli...

关于使用Java实现的简单网络爬虫Demo

闭关写代码

05-28

8542

什么是网络爬虫？网络爬虫又叫蜘蛛，网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。所以要想抓取网络上的数据，不仅需要爬虫程序还需要一个可以接受

使用java实现网络爬虫

75闪光雷的博客

03-31

5752

之前学习j2ee的搭建，基本完成了。接下来想学习下爬虫技术。要研究一项技术，首先得知道它的原理。那么网络爬虫的原理是什么呢？网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的 URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。接下来我会一

简易Java网络爬虫

08-07

【简易Java网络爬虫】是一种基于Java编程语言实现的简单网络数据抓取工具，主要用于从趣配音的web页面上获取信息。在这个项目中，我们将会探讨如何构建一个基础的网络爬虫，涉及到的关键技术包括HTTP请求、HTML解析...

java网络爬虫

03-21

4. **Crawler4j**：一个简单易用的Java网络爬虫框架，适用于教育和研究领域。 #### 五、总结通过上述内容，我们了解了Java网络爬虫的基础概念、关键技术以及实战技巧。Java网络爬虫不仅可以帮助我们高效地获取...

java网络爬虫实现简单Demo

09-29

以下是一个简单的Java网络爬虫的步骤： 1. **导入必要的库**：首先，确保在项目中引入了`Jsoup`库，可以通过Maven或Gradle添加依赖。 2. **发送HTTP请求**：使用`HttpURLConnection`或`HttpClient`发送GET请求到...

java 简单爬虫入门maven项目

10-05

Java简单爬虫入门Maven项目是一个适合初学者的教程，旨在教授如何使用Java语言和Maven构建一个基础的网络爬虫。在这个项目中，我们将会学习到以下关键知识点： 1. **Java编程基础**：首先，你需要具备基本的Java...

Java实现简单的网络爬虫

Kings_boy的博客

09-02

512

一、导读在学习了网络编程和IO流之后，在网上发现可以实现Java简单的爬虫。读了几篇感觉其实很容易理解，自己就试着写了一下。大致思路方法其实很简单，就是从网络上获取文件的地址，自己只需要在编辑器里，获取到所要下载的文件地址，存入内存，然后在将其写到磁盘上就行了。二、直接上手—以获取某张图片为例 2.1、我们首先要做的就是先随便从网上找一个简单的文件。找到一个网站，然后快捷键 F12 进入控制台，刷新一下，获取它所有的请求在这些请求中，找到你所要抓取的文件，然后选中发现左侧会有文件请求的所有信

Java-网页爬虫

Autovy blog

09-09

676

Java-网页爬虫

如何使用Java进行网络爬虫

qq_44647871的博客

10-25

1万+

如何使用Java进行网络爬虫大家好我是迁客，一个初学Java的小白！痴迷技术，对programming有着极大的兴趣和爱好。从今天起，开始写自己个人成长的第一篇博客！既是对自己的一个学习技术的一个记录，也是督促自己，坚持下去！加油Fighting！从明天起，做一个新思维的人继承，多态，层层封装从明天起,不再关心内存管理让每一条数据，自动放到合适的位子上从明天起，我将为每一个对象取一个温暖的名字它们用驼峰命名，优雅，大方陌生人，我也祝福你哈愿你不再为系统级bug烦恼愿你在平台之间肆意游

基于java的网络爬虫框架(实现京东数据的爬取，并将插入数据库)

热门推荐

qy20115549的博客

08-14

7万+

目录网络爬虫框架网络爬虫的逻辑顺序网络爬虫实例教学 model main util parse db 再看main方法爬虫效果展示网络爬虫框架写网络爬虫，一个要有一个逻辑顺序。本文主要讲解我自己经常使用的一个顺序，并且本人经常使用这个框架来写一些简单的爬虫，复杂的爬虫，也是在这个基础上添加其他程序。首先，我的工程都是使用maven建的，不会使用maven的，请看之前写的网络爬虫基础。使用S

简易JAVA爬虫练习，为新手总结的三种爬虫方法

Ronsssss的博客

08-31

2万+

这是想学习java爬虫的新手必经之路，也是最简单的几种JAVA爬虫爬取网页信息的方法，当然,这几种方法爬取的网页有限，对于需要登录的网页则还需进行更复杂的操作，这里就不做多余的解释，毕竟是写给新手的，希望对刚学习JAVA爬虫的人能有点帮助。一、通过urlconnection抓取信息：步骤： 1.获取url 2.获取http请求 3.获取状态码 4.根据状态吗返回信息。

java爬虫入门实战

刘剑峰的博客

11-11

2万+

爬虫百度百科：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。爬虫的实质，就是获取静态数据，并对此进行分析从而获取对我们有价值的数据，从中可见，最重要的就是分析数据这一部分。数据的格式有json，xml，html等等，在此我们就分析链家网

Java网页爬虫--基于URLConnection的网页爬虫工具类

pengjunlee的博客

12-26

4万+

在这个数据为王的时代，爬虫应用地越来越广泛，对于一个萌新程序员来说如果你要做爬虫，那么Python是你的不二之选。但是对于那些老腊肉的Java程序员（亦或者你是程序媛）想使用Java做爬虫也不是不行，只是没有Python那么方便。身为一块Java老腊肉的我在此记录一下自己在使用Java做网络爬虫使用的工具类。在pom.xml文件中引入commons-lang3 依赖： <depe...

爬虫实战：一个简易 Java 爬虫程序的实现

magicpenta的博客

12-04

1万+

完整的 Java 爬虫实现

爬虫入门手写一个Java爬虫

weixin_30325487的博客

11-18

4517

本文内容涞源于罗刚老师的书籍 << 自己动手写网络爬虫一书 >> ; 本文将介绍 1: 网络爬虫的是做什么的? 2:手动写一个简单的网络爬虫; 1:网络爬虫是做什么的? 他的主要工作就是跟据指定的url地址去发送请求,获得响应,然后解析响应 ,一方面从响应中查找出想要查找的数据,另一方面从响应中解析出新的URL路径, 然后继续访问,继续解析;...

Java实现简单网络爬虫代码示例

这篇描述涉及的是一个简单的Java网络爬虫程序，它能够在Eclipse集成开发环境下运行，用于从指定网页中抓取并存储URL链接。以下是这个爬虫程序的关键知识点： 1. **网络爬虫**：网络爬虫是一种自动化程序，它按照...