java web 抓取_Java 网络爬虫获取网页源代码原理及实现

本文介绍了网络爬虫的基本概念,它用于搜索引擎抓取网页。程序获取网页源代码的原理涉及客户端向服务器发送HTTP请求,服务器返回文件。在Java中,实现网页源码获取的步骤包括新建URL对象、建立HTTP连接、检查响应状态码以及读取输入流。提供的示例代码展示了如何使用Java获取指定网页的源代码。
摘要由CSDN通过智能技术生成

1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。

2.那么程序获取网页的原理到底是怎么回事呢?看下面的图:客服端首先向服务器端发出Http请求,之后服务器端返回相应的结果或者请求超时客户端自己报错。

32543e0e179ef2387475058d83e0b020.png  服务器端发出的Http请求,实际上说是对服务器的文件的请求。下面的表格是一些常见的HTTP请求对应的文件。(因为第一列给出的都是主机的网址信息,主机一般都通过配置文件将该请求转换为网站主页地址index.php或index.jsp或者index.html等)

HTTP请求

HTTP对应的文件

http://www.baidu.com

http://www.baidu.com/index.php

http://www.sina.com.cn

http://www.sina.com.cn/index.html

http://www.cnblogs.com

http://www.cnblogs.com/index.html

http://ac.jobdu.com

http://ac.jobdu.com/index.php

3.java实现网页源码获取的步骤:

(1)新建URL对象,表示要访问的网址。如:url=new URL("http://www.sina.com.cn");

(2)建立HTTP连接,返回连接对象urlConnection对象。如:urlConnection = (HttpURLConnection)url.openConnection();

(3)获取相应HTTP 状态码。如responsecode=urlConnection.getResponseCode();

(4)如果HTTP 状态码为200,表示成功。从urlConnection对象获取输入流对象来获取请求的网页源代码。

4.java获取网页源码代码:

import java.io.BufferedReader;

import java.io.InputStreamReader;

import java.net.HttpURLConnection;

import java.net.URL;public classWebPageSource {public static voidmain(String args[]){

URL url;intresponsecode;

HttpURLConnection urlConnection;

BufferedReader reader;

String line;try{//生成一个URL对象,要获取源代码的网页地址为:http://www.sina.com.cn

url=new URL("http://www.sina.com.cn");//打开URL

urlConnection =(HttpURLConnection)url.openConnection();//获取服务器响应代码

responsecode=urlConnection.getResponseCode();if(responsecode==200){//得到输入流,即获得了网页的内容

reader=new BufferedReader(new InputStreamReader(urlConnection.getInputStream(),"GBK"));while((line=reader.readLine())!=null){

System.out.println(line);

}

}else{

System.out.println("获取不到网页的源码,服务器响应代码为:"+responsecode);

}

}catch(Exception e){

System.out.println("获取不到网页的源码,出现异常:"+e);

}

}

}

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值