使用正则表达式来获取HTML中的链接

最新推荐文章于 2023-05-29 19:02:57 发布

iteye_13715

最新推荐文章于 2023-05-29 19:02:57 发布

阅读量225

点赞数

分类专栏： javaWeb 文章标签：正则表达式 HTML Java

javaWeb 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

引用 http://www.javaresearch.org/article/82778.htm

import java.io.BufferedReader;
import java.io.FileNotFoundException;
import java.io.FileReader;
import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class LinkerFinder {
public static void main(String [] args)
{
String regStr="<a\\s+href\\s*=\\s*"//<a href=
+"(\"[^\"]*\"|[^\\s]*)\\s*" //URL部分
+"(target=\\s*(\"[^\"]*\"|[^\\s]*))?>";//target部分
StringBuffer sb=new StringBuffer();
try {
FileReader fr = new FileReader("111.htm");
BufferedReader br=new BufferedReader(fr);
String line;
while((line=br.readLine())!=null)
{
sb.append(line);
}
br.close();
fr.close();
Pattern ptn=Pattern.compile(regStr,Pattern.CASE_INSENSITIVE);
Matcher matcher=ptn.matcher(sb);
while(matcher.find())
{
int start=matcher.start();
int end=matcher.end();
String url=sb.substring(start,end);
System.out.println(url);
}
} catch (FileNotFoundException e) {
// TODO 自动生成 catch 块
e.printStackTrace();
} catch (IOException e) {
// TODO 自动生成 catch 块
e.printStackTrace();
}
}
}

以上只是个例子,希望能给大家带来些启发.

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

iteye_13715

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

如何使用正则表达式提取HTML链接

一名可爱的技术搬运工

05-18

3630

在本教程中，我们将向您展示如何从HTML页面提取超链接。例如，要从以下内容获取链接： this is text1 <a href='mkyong.com' target='_blank'>hello</a> this is text2... 首先从“价值” a标签-结果： a href='mkyong.com' target='_blank' 稍后从上面提...

7-7 利用正则表达式得到一段HTML文本中所有超链接对应的网址

最新发布

weixin_74279049的博客

06-04

540

编写程序实现以下功能：利用正则表达式得到一段HTML文本中所有超链接对应的网址，并将网址输出到屏幕上（每行输出一个网址）。

参与评论您还未登录，请先登录后发表或查看评论

正则取html链接,正则表达式从HTML中提取链接

weixin_34732336的博客

05-31

320

给出一个包含HTML，如字符串：1directoryfile.htmdirectoryfile1045692historicaldata40361Complete submission text filebusinessagenda;146701我只想抓住历史的链接使用正则表达式的aldata。但是，似乎我的程序没有找到链接，并且我没有看到问题，因为正则表达式在测试仪上工作。你们可以看看有什么问...

正则表达式解析出页面所有链接，并得到链接的内容

03-31

NULL 博文链接：https://legend9999.iteye.com/blog/1340218

正则表达式例子：获得某个网页上的所有超链接

vancekq的专栏

05-09

1252

返回列表" method="post">URL：">if(isset($url)){ echo "$url 有下列链接："; $fcontents = file($url); while(list(,$line)=each($fcontents)){ while(eregi((href[[:space:]]*=[[:space:]]*"?[[:alnum:]:@/._-]+"?)(.*

提取HTML中所有a标签的href链接

喵叻嗰咪的博客

05-31

7814

/** * 提取html中a标签的href * @param strs * @return */ public List<String> getAHref(String strs){ List<String> al=new ArrayList<String>(); String regex="<a.*?/...

Python 通过正则表达式快速获取电影的下载地址

12-17

在爬取网页信息时，如果在HTML代码中通过获取标签的方式来提取电影的下载地址时，不仅要编写比较多的代码，还需要不断的确认每一层的标签是否正确，这样的操作无疑是烦琐的。如下图所示。那么通过什么方式既可以减少...

Python每日一练(15)-通过正则表达式快速获取电影的下载地址

12-21

本篇将深入探讨如何利用Python的正则表达式模块`re`来简化从HTML代码中获取电影下载链接的过程。首先，让我们了解什么是正则表达式。正则表达式是由特殊字符和普通字符组成的模式，用于匹配和处理文本。它们定义了...

node.js正则表达式获取网页中所有链接的代码实例

10-25

主要介绍了node.js正则表达式获取网页中所有链接的代码实例,使用正则表达式实现,需要的朋友可以参考下

php使用正则表达式获取图片url的方法

10-24

通过本文的学习，读者可以掌握如何在PHP中使用正则表达式来提取HTML代码中的图片URL。此技能不仅限于提取图片URL，还可以拓展到其他类型数据的提取，只要调整正则表达式模式即可。例如，可以修改正则表达式来提取...

java第五部分题目集合（pta）

m0_73554747的博客

05-29

1972

pta平台java题目集合第五部分

正则表达式入门知识+用它实现在一个网页中获取所有的链接地址

lu93it的博客

09-14

7336

概念：正则表达式是一种计算机科学的概念、它通常用来检索和替换那些符合规则的文本或者字符串。现在很多的程序设计语言计都支持利用正则表达式来进行字符串的操作，有java、c++、python、javascript、perl、php等。作用： 1 给定的字符串是否符合正则表达式 2 通过正则表达式可以从字符串中获取我们想要的特定部分规则：开始与结束:^、$ 表示匹配个数：+、？、|

PTA7(python3)

热门推荐

weixin_46487304的博客

04-25

1万+

python程序设计07-字符串与正则表达式7-1 找最后的字符 (30 分)7-2 重要的事情说N遍 (20 分)7-3 号码牌的制作 (10 分)7-4 统计字符串中指定字符的个数 (30 分)7-5 字符串消除空格 (30 分)7-6 统计指定数字和 (30 分)7-7 计算有n个字符串中最长的字符串长度 (40 分)7-8 判断两个字符串是否为变位词 (40 分)7-9 判断字符串结尾方式 (40 分)7-10 纵向输出字符串 (5 分)7-11 判断字符串头尾结构 (30 分)7-12 jmu-p

正则表达式获取网页链接

K3的专栏

04-01

1万+

设计目的要使获取的资源尽可能的被直接利用，以提高后续程序运行的效率。网页上的链接主要可以分为两类：1. 链接2. 图片链接首先来分析链接,该链接基本可以分为以下四种情况：1 普通链接链接到外部网页链接到内部网页链接到图片空链接获取该类型的连接时用如下的表达式：(?]*/s*(href)=)[^>]+?(?="|)(?#>[^>]+)//获得//(?//(?

用正则表达式过滤出html中得 img标签，并且把URL链接给取出来

shenyingqiang的专栏

08-19

7083

最近做项目要处理html数据，其中是过滤出当中的图片，网上找了很多办法都不是很好用，发现用正则可以实现这个需求，有错误欢迎大家提出，共同讨论写正则的方法，下面是实现代码。 + (NSArray *)filterTheImgUrlArrFromfahterHtml:(NSString *)html{ //]*>找img标签的正则 NSString *ss = @"]

正则表达式获取HTML中的链接

06-01

可以使用以下正则表达式获取HTML中的链接： ```python import re html = '<a href="https://www.google.com">Google</a>' links = re.findall(r'(.*?)">', html) print(links) # 输出 ['https://www.google.com'...