java提取所有html链接,使用Java的完整链接提取

最新推荐文章于 2022-03-28 10:00:48 发布

weixin_39811842

最新推荐文章于 2022-03-28 10:00:48 发布

阅读量495

点赞数

文章标签： java提取所有html链接

小编典典

您可以使用像Jsoup这样的功能强大的HTML解析器来执行此操作。有一个Node#absUrl()这不正是你想要的东西。

package com.stackoverflow.q3394298;

import java.net.URL;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

public class Test {

public static void main(String... args) throws Exception {

URL url = new URL("https://stackoverflow.com/questions/3394298/");

Document document = Jsoup.connect(url).get();

Element link = document.select("a.question-hyperlink").first();

System.out.println(link.attr("href"));

System.out.println(link.absUrl("href"));

}

它会为您当前问题的标题链接打印(正确)以下内容：

/ questions / 3394298 / full-link-extraction-using-java

https://stackoverflow.com/questions/3394298/full-link-extraction-using-java

为了您的目的，Jsoup可能还有其他(未发现的)优势。

更新：如果要选择文档中的所有链接，请执行以下操作：

Elements links = document.select("a");

for (Element link : links) {

System.out.println(link.attr("href"));

System.out.println(link.absUrl("href"));

}

2020-11-23

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

weixin_39811842

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

java读取html文件并抽取a href相关连接和链接标题

kivcare的专栏

03-18

8656

import java.util.regex.Matcher;import java.util.regex.Pattern;import java.util.*;import java.io.*;import java.nio.CharBuffer;public class RegTest{ public static void main(String[] args) {

java 获取网站所有的链接_java获取网页所有网址链接

weixin_39632698的博客

02-25

1364

最近在学习java，写了个获取网页所有链接(超链接)的例子，实践是最好的学习嘛，用到htmlparser这个包.htmlparser用于对html页面进行解析的包，很好用的.htmlparser项目首页：http://htmlparser.sourceforge.net/ , 查找download下载就行了, 就是以下页面：http://sourceforge.net/projects/html...

参与评论您还未登录，请先登录后发表或查看评论

java网页所有链接_java爬取网站中所有网页的源代码和链接

weixin_39689622的博客

02-16

278

package com.test;import java.io.*;import java.net.URL;import java.net.URLConnection;import java.text.SimpleDateFormat;import java.util.Date;import java.util.regex.Matcher;import java.util.regex.Patter...

java 正则网址_java正则表达式匹配网页所有网址和链接文字的示例

weixin_39880895的博客

02-12

659

import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.MalformedURLException;import java.net.URL;import java.util.ArrayList;import java.util.HashMap;...

Java抓取URL指定的HTML内容

boonya的博客

05-16

382

[color=brown]通过Java获取到URL指定的内容，如果有目标数据可以再写代码解析获取到的内容[/color] [code="java"] package com.boonya; import java.io.IOException; import java.net.HttpURLConnection; import java.net.MalformedURLException...

提取文件中百度云链接与提取码的java源码

02-09

本篇文章将聚焦于一个具体的问题：如何使用Java编程语言从网页中提取百度云链接和提取码，从而实现批量下载。首先，我们需要理解百度云链接的工作机制。通常，百度云链接是一种指向特定文件或文件夹的共享链接，...

Java从视频中提取音频

最新发布

05-25

Java从视频中提取音频下载依赖包是会比较慢，请在网络好的环境下载依赖包下载好后，直接编译即可运行懒得下载或网络不好的，可以去下方地址下载 https://download.csdn.net/download/qq_34096425/87804913

Java爬虫网页上的所有链接网址.zip_java 网页爬虫_java网页爬虫_爬取所有链接_网页爬虫链接

09-24

在这个特定的压缩包文件中，包含了一个名为"Robot"的Java类，用于实现抓取网页上所有链接网址的功能。首先，我们需要了解Java爬虫的基本原理。Java作为一种面向对象的编程语言，提供了丰富的库和工具，如Jsoup和...

java获取百度网盘真实下载链接的方法

09-03

Java获取百度网盘真实下载链接的方法涉及到网络编程和解析网页数据的技术，主要步骤包括发送HTTP请求、解析HTML页面以及提取所需信息。以下是对这个过程的详细说明：首先，要获取百度网盘的真实下载链接，我们需要...

【Java】获取指定HTML 文档指定的body、页中超链接的标题和链接、指定博客文章的内容

08-20

【Java】获取指定HTML 文档指定的body、页中超链接的标题和链接、指定博客文章的内容

java htmlunit 简易使用示例（读取网页点击链接）

AVATAR

03-28

2174

目录示例功能： 1.使用htmlunit请求某个网站首页； 2.在首页找到某个链接的DOM； 3.点击它，获取新的响应页面；示例功能： htmlunit模拟对网站的连续操作，进入网站首页，寻找固定二级或者多级菜单（链接）点击，作为一个入门教程提供参考。 1.使用htmlunit请求某个网站首页；初始化请求WebClient对象，然后使用getPage请求某个网址； //HtmlUnit模拟浏览器 WebClient webClient = new WebClient(Brows

java提取网页中所有链接,使用Java的完整链接提取

weixin_35282313的博客

03-12

413

小编典典您可以使用像Jsoup这样的功能强大的HTML解析器来执行此操作。有一个Node#absUrl()这不正是你想要的东西。package com.stackoverflow.q3394298;import java.net.URL;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.jsoup.nodes.Ele...

java html超链接_HTML超链接a标签_动力节点Java学院整理

weixin_42134537的博客

02-16

345

只要学习或者使用过HTML的人，我想对于标签应该都是不陌生的。今天对做一个简单的说明，将自己的理解简单描述出来。是超链接标签，什么是超链接呢？就是将当前内容与网络上的另一个资源进行连接起来，点击该连接就可以实现跳转到被链接的另一个资源上。个人觉得，超链接可以想象成是一种能力，能力必须附着在某个具体的实物上，才能真正发挥该能力，比方说，隐身能力，它本身并不能隐身，只有当它附着在人身上，看到人隐身了，...

java 获取网站所有的链接_如何抓取一个网址下的所有页面链接？

weixin_39624606的博客

02-19

1064

展开全部由于题目是放在【编程语言】栏目下的，但没有指定希望使32313133353236313431303231363533e4b893e5b19e31333363376437用哪种编程语言，我选择使用java语言来实现。在Java中，使用HttpURLConnection即可连接URL，随后可以使用InputStreamReader获取网页内容文本。然后，使用正则表达式解析网页内容文本，找到所有...

Java爬虫系列二：使用HttpClient抓取页面HTML

wliee的博客

11-25

887

Java爬虫系列二：使用HttpClient抓取页面HTML 爬虫要想爬取需要的信息，首先第一步就要抓取到页面html内容，然后对html进行分析，获取想要的内容。上一篇随笔《Java爬虫系列一：写在开始前》中提到了HttpClient可以抓取页面内容。今天就来介绍下抓取html内容的工具：HttpClient。围绕下面几个点展开：什么是HttpClient HttpClient入门实例复杂应用结束语一、什么是HttpClient 度娘说： HttpClient 是Apache Jakarta

提取html中所有的链接地址,利用htmlparser提取网页中的所有的链接

weixin_39726971的博客

06-26

693

htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或提取html。它能超高速解析html，而且不会出错。现在htmlparser最新版本为2.0。毫不夸张地说，htmlparser就是目前最好的html解析和分析的工具。无论你是想抓取网页数据还是改造html的内容，用了htmlparser都是一个效率较高的库。不过这里用的例子解析出来的链接不是...

java循环抓取网页超链接_提取网页中的超链接

weixin_39695306的博客

03-02

468

usingSystem;usingSystem.Xml;usingSystem.Text;网络using System;using System.Xml;using System.Text;using System.Net;using System.IO;using System.Collections;using System.Text.RegularExpressions;public cla...

Java处理磁力链接：使用jmagneturi库

jmagneturi库是一个用于解析磁力链接的Java库，它可以帮助我们提取链接中的文件哈希值和其他相关信息。首先，为了在项目中使用jmagneturi库，我们需要在构建文件中添加库的依赖。如果你的项目是基于Maven的，可以...