首先,我们来看一个用utl_http包来获得网页内容的一个简单示例:
注意:非DBA用户需要先赋与执行该包的权限
DECLARE
req utl_http.req;
resp utl_http.resp;
value VARCHAR2(1024);
BEGIN
req := utl_http.begin_request('http://blog.csdn.net/edcvf3');
utl_http.set_header(req, 'User-Agent', 'Mozilla/4.0');
resp := utl_http.get_response(req);
LOOP
UTL_HTTP.read_text(resp, value);--也可以用read_line
DBMS_OUTPUT.PUT_LINE('--------------');
dbms_output.put_line(value);
END LOOP;
utl_http.end_response(resp);
EXCEPTION
WHEN utl_http.end_of_body THEN
utl_http.end_response(resp);
when others then
dbms_output.put_line(utl_http.get_detailed_sqlerrm);
UTL_HTTP.END_RESPONSE(resp);--必须关闭,否则会获得错误,并且再次请求时会提示打开的连接过多
END;
如上:代码比较简单,相关的请求及结果返回都已经由相关存储/函数实现了,只需掌握调用方法.
得到的结果如下:
--------------
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-strict.dtd">
<html xmlns="http://www.w3.org/1999/xhtml">
<head>
<title>流云追风 - 博客频道 - CSDN.NET</title>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<meta name="description" content="" />
<script src="http://static.blog.csdn.net/scripts/jquery.js" type="text/javascript"></script>
<script type="text/javascript" src="http://static.blog.csdn.net/scripts/ad.js?v=1.1"></script>
<link rel="Stylesheet" type="text/css" href="http://static.blog.csdn.net/skin/default/css/style.css?v=1.1" />
<link id="RSSLink" title="RSS" type="application/rss+xml" rel="alternate" href="/edcvf3/rss/list" />
<link rel="shortcut icon" href="/favicon.ico" />
<link type="text/css" rel="stylesheet" href="http://static.blog.csdn.net/scripts/SyntaxHighlighter/styles/blue_green.css" />
</head>
<body>
<script src="http://csdnimg.cn/pubnav/js/pub_topnav_2011.js"type="text/javascript"></script>
<di
--------------
v id="container">
<div id="header">
<div class="header">
<div id="blog_title">
<h1><a href="/edcvf3">流云追风</a></h1>
<h2>追寻编程之道</h2>
<div class="clear"></div>
</div>
<div class="clear"></div>
</div>
</div>
<div id="navigator">
<div class="navigator_bg"></div>
<div class="navigator">
... 太长了,后面的省略掉.
好了,既然可以轻松获得网页内容,那么再实现spider也比较容易了.
注:这里并没有去爬网页的具体内容,只是把某个网页内所有的网址及对应IP保存到了表里
具体代码如下:
DECLARE
V_REQ UTL_HTTP.REQ;
V_RESP UTL_HTTP.RESP;
V_CHARSET VARCHAR2(100);
V_VALUE VARCHAR2(2500);
V_COUNT NUMBER := 1;
v_url VARCHAR2(2000);
BEGIN
V_REQ := UTL_HTTP.BEGIN_REQUEST('http://www.hao123.com');--爬hao123,因为它里面的网址比较多
V_RESP := UTL_HTTP.GET_RESPONSE(V_REQ);
LOOP
UTL_HTTP.read_text(V_RESP, V_VALUE);
if instr(UPPER(v_value), 'HREF') > 0 then
loop
if instr(UPPER(v_value), 'HTTP') > 0 then
select regexp_substr(v_value, 'http[0-9a-zA-Z/:.]+com|cn|org|net',1,1,'i') --匹配网址,不区分大小写
into v_url
from dual;
--DBMS_OUTPUT.PUT_LINE(v_value);
if v_url is null then
exit;
end if;
if instr(upper(v_url), 'HTTPS') > 0 THEN
v_url := REPLACE(UPPER(v_url), 'HTTPS://','');
ELSE
v_url := REPLACE(UPPER(v_url), 'HTTP://','');
END IF;
begin
DBMS_OUTPUT.PUT_LINE(v_url);--打印出已经爬到的网址
DBMS_OUTPUT.PUT_LINE('--------------');
--插入表
insert into ip_url --用来保存爬到的网站,这里只保存了网址和IP,略加处理即可保存网页内容
(ip, urladdress, indate)
select utl_inaddr.get_host_address(v_url), v_url, sysdate
from dual;
exception
when others then
NULL;
end;
if replace(v_value,' ','') is null then exit; end if;
v_value := replace(upper(v_value), v_url, '');
else
exit;
end if;
end loop;
end if;
EXIT WHEN V_COUNT >= 2000;
V_COUNT := V_COUNT + 1;
END LOOP;
UTL_HTTP.END_RESPONSE(V_RESP);
EXCEPTION
WHEN UTL_HTTP.END_OF_BODY THEN
UTL_HTTP.END_RESPONSE(V_RESP);
when others then
DBMS_OUTPUT.PUT_LINE(v_value);
dbms_output.put_line(utl_http.get_detailed_sqlerrm);
UTL_HTTP.END_RESPONSE(V_RESP);
END;
打印的结果如下:
WWW.HAO123.COM
TV.HAO123.COM
MOVIE.HAO123.COM
MUSIC.HAO123.COM
TUAN.BAIDU.COM
XYX.HAO123.COM
FEEDBACK.HAO123.COM
S0.HAO123IMG.COM
WWW.HAO123.COM
WWW.HAO123.COM
PAN.BAIDU.COM
S0.HAO123IMG.COM
HI.BAIDU.COM
S1.HAO123IMG.COM
WWW.HAO123.COM
HI.BAIDU.COM
REG.163.COM
WWW.BAIDU.COM
WWW.HAO123.COM
MUSIC.BAIDU.COM
VIDEO.BAIDU.COM
IMAGE.BAIDU.COM
TIEBA.BAIDU.COM
ZHIDAO.BAIDU.COM
NEWS.BAIDU.COM
... 太多了,也不一一列举了
附本人已经爬到的一些网站的网页标题,如图:
接下来准备实现非默认端口(80)的网站扫描。。。