利用JSP获取网页源文件并抓取其中的链接地址

转载 2005年05月30日 13:56:00
 

利用java的net包获取网页源文件,使用正则表达式抓取当中的链接地址,因正则表达式学艺不精,下面这个例子中并不能抓取所有情况下的href属性中的链接地址

test.jsp

<%@ page contentType="text/html; charset=gb2312" language="java" import="java.util.regex.*" errorPage="" %>
<%
String sCurrentLine; 
String sTotalString; 
sCurrentLine=""; 
sTotalString=""; 
java.io.InputStream l_urlStream; 
java.net.URL l_url = new java.net.URL("http://www.5ja.net"); 
java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection(); 
l_connection.connect(); 
l_urlStream = l_connection.getInputStream(); 
java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream)); 

while ((sCurrentLine = l_reader.readLine()) != null) 

sTotalString+=sCurrentLine; 

//String regEx = "href=([^/"']*)>";
String regEx ="href=/"([^/"]*)/"";//找出href="****"的链接
Pattern p = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);
Matcher m = p.matcher(sTotalString);
int j=0;
while(m.find()){
j++;
out.println("m.group(" + j + "): " + m.group(0)+"<br>");
}
regEx ="href='([^']*)'";//找出href='****'的链接
p = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);//Pattern.CASE_INSENSITIVE查找忽略大小写
m = p.matcher(sTotalString);
while(m.find()){
j++;
out.println("m.group(" + j + "): " + m.group(0)+"<br>");
}
%>

Qrcode生成二维码链接地址,网页授权获取微信用户信息

(1)一个简单的二维码地址生成使用easywechat扫描获取微信用户的信息:首先生成二维码链接这里引用的QrCode生成的QrCode::size(300)->generate($url]); ur...

正则表达式入门知识+用它实现在一个网页中获取所有的链接地址

概念:正则表达式是一种计算机科学的概念、它通常用来检索和替换那些符合规则的文本或者字符串。现在很多的程序设计语言计都支持利用正则表达式来进行字符串的操作,有java、c++、python、javasc...
  • lu93it
  • lu93it
  • 2016年09月14日 08:55
  • 2089

文章标题 使用ajaxFileupload+struts2完成文件的上传以及回显到jsp的链接地址

积累点滴,从这一刻开始 jsp页面部分 第一步: jsp页面导入 ajaxfileupload.js文件 第二步:编写上传文件的文本框: 第三步: struts2后台部...

HTMLParser解析网页,提取链接地址、标题名称,并插入数据库

#coding:utf-8 import MySQLdb import urllib2 import re import time import sys from HTMLParser import...

web网页Eclipse,jsp+Servlet+javaBean,访问Mysql链接数据库

注意导完驱动包,还要在WEB-INF/lib下再放一份。 LogIn.jsp代码

Python 抓取网页下载链接

  • 2017年08月28日 22:19
  • 2KB
  • 下载

一个C源文件到可执行文件 [反汇编-函数栈帧 编译 链接]

《Linux C 编程一站式学习》第18,19章练习。 平台:x86/Debian GNU/Linux gcc 1 C源文件代码对应的指令 计算机是由数字电路组成的运算机器,只能对数字做运算。加载到内...

利用ADO实现网页与数据库的链接

  • 2012年09月17日 22:12
  • 135KB
  • 下载

获取网页内部链接

  • 2013年06月03日 11:57
  • 44KB
  • 下载
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:利用JSP获取网页源文件并抓取其中的链接地址
举报原因:
原因补充:

(最多只允许输入30个字)