JSP获取网页源文件并抓取其中的链接地址

最新推荐文章于 2024-04-24 21:48:46 发布

HPsoft

最新推荐文章于 2024-04-24 21:48:46 发布

阅读量1.8k

点赞数

分类专栏： JSP 文章标签： jsp regex 正则表达式 string java import

本文链接：https://blog.csdn.net/HPsoft/article/details/371163

版权

JSP 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

nm利用java的net包获取网页源文件，使用正则表达式抓取当中的链接地址，因正则表达式学艺不精，下面这个例子中并不能抓取所有情况下的href属性中的链接地址

test.jsp

<%@ page contentType="text/html; charset=gb2312" language="java" import="java.util.regex.*" errorPage="" %>
<%
String sCurrentLine;
String sTotalString;
sCurrentLine="";
sTotalString="";
java.io.InputStream l_urlStream;
java.net.URL l_url = new java.net.URL("http://www.5ja.net");
java.net.HttpURLConnection l_connection = (java.net.HttpURLConnection) l_url.openConnection();
l_connection.connect();
l_urlStream = l_connection.getInputStream();
java.io.BufferedReader l_reader = new java.io.BufferedReader(new java.io.InputStreamReader(l_urlStream));

while ((sCurrentLine = l_reader.readLine()) != null)
{
sTotalString+=sCurrentLine;
}
//String regEx = "href=([^/"']*)>";
String regEx ="href=/"([^/"]*)/"";//找出href="****"的链接
Pattern p = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);
Matcher m = p.matcher(sTotalString);
int j=0;
while(m.find()){
j++;
out.println("m.group(" + j + "): " + m.group(0)+"<br>");
}
regEx ="href='([^']*)'";//找出href='****'的链接
p = Pattern.compile(regEx, Pattern.CASE_INSENSITIVE);//Pattern.CASE_INSENSITIVE查找忽略大小写
m = p.matcher(sTotalString);
while(m.find()){
j++;
out.println("m.group(" + j + "): " + m.group(0)+"<br>");
}
%>

HPsoft

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
JSP获取网页源文件并抓取其中的链接地址

nm利用java的net包获取网页源文件，使用正则表达式抓取当中的链接地址，因正则表达式学艺不精，下面这个例子中并不能抓取所有情况下的href属性中的链接地址test.jspString sCurrentLine; String sTotalString; sCurrentLine=""; sTotalString=""; java.io.InputStream l_urlStream;
复制链接

扫一扫