Java使用正则表达式匹配获取链接地址的方法示例
发布于 2020-6-14|
复制链接
摘记: 本文实例讲述了Java使用正则表达式匹配获取链接地址的方法。分享给大家供大家参考,具体如下:获取页面中字符串的url地址我们都会使用正则表达式来匹配获取了,下面我来给大家总结几个匹配获取链接地址示例。1、正则表达式中Matcher中find()方法的应用。2、String对象中的 ..
本文实例讲述了Java使用正则表达式匹配获取链接地址的方法。分享给大家供大家参考,具体如下:获取页面中字符串的url地址我们都会使用正则表达式来匹配获取了,下面我来给大家总结几个匹配获取链接地址示例。1、正则表达式中Matcher中find()方法的应用。2、String对象中的 replaceAll(String regex,String replacement) 方法的使用。通过这个方法去除了不必要的字符串,从而得到了需要的网址和链接文字例1.超简单的
```java
String content = "";
String pattern= "target="_blank" rel="nofollow" href="([^" rel="external nofollow" ]*)"";
Pattern p = Pattern.compile(pattern, 2 | Pattern.DOTALL);
Matcher m = p.matcher(content);
if(m.find()) {
System.out.println("url="+m.group(1));
}
```
例2.上面只能获取带有双“号的a标题中的url,下面我们加以改进可以获取任何状态下的a标题url
```java
package com.gong.example;
import Java.util.regex.Matcher;
import java.util.regex.Pattern;
public class Simple {
public static void main(String[] args){
String input="www.unnue.com" +
"www.163.com " +
"www.yahoo.com";
String patternString = "\s*(?i)href\s*=\s*("([^"]*")|'[^']*'|([^'">\s]+))"; //href
Pattern pattern = Pattern.compile(patternString,
Pattern.CASE_INSENSITIVE);
Matcher matcher = pattern.matcher(input);
while (matcher.find()) {
String link=matcher.group();
System.out.println(link);
link=link.replaceAll("href\s*=\s*(['|"]*)", "");
System.out.println("--"+link);
link=link.replaceAll("['|"]", "");
System.out.println("---"+link);
}
}
}
```
例3.我们还可以利用它进行升级获取 获取网址和链接文字哦。
```java
/*
功能说明:分析字符串s,提取s里面的超链接和链接文字
*/
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class RegTest
{
public static void main(String[] args)
{
//String s=" 空间 | 企业推广 | 搜索风云榜 | 关于百度 | About Baidu©2008 Baidu 使用百度前必读 京ICP证03xxxx号 ";
String regex="";
//String regex = "(.*)";
Pattern pt=Pattern.compile(regex);
Matcher mt=pt.matcher(s);
while(mt.find())
{
System.out.println(mt.group());
System.out.println();
String s2=">.*?";//标题部分
String s3="target="_blank" rel="nofollow" href=.*?>";
Pattern pt2=Pattern.compile(s2);
Matcher mt2=pt2.matcher(mt.group());
while(mt2.find())
{
System.out.println("标题:"+mt2.group().replaceAll(">|",""));
}
Pattern pt3=Pattern.compile(s3);
Matcher mt3=pt3.matcher(mt.group());
while(mt3.find())
{
System.out.println("网址:"+mt3.group().replaceAll("target="_blank" rel="nofollow" href=|>",""));
}
}
}
}
```