java读取html文件_java读取html文件,并获取body中所有的标签及内容的案例

最新推荐文章于 2024-08-01 03:50:20 发布

丛零

最新推荐文章于 2024-08-01 03:50:20 发布

阅读量2.3k

点赞数

文章标签： java读取html文件

本文链接：https://blog.csdn.net/weixin_35474542/article/details/114038191

版权

这个案例展示了如何使用Java读取HTML文件，并提取body部分的所有标签及其内容。代码通过BufferedReader逐行读取文件，定位到body标签，并处理img标签的src属性，将相对路径转为绝对路径。

摘要由CSDN通过智能技术生成

这里的获取的是html文件中body中的所有标签以及内容

package com.lmt.service.file;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileInputStream;

import java.io.InputStreamReader;

import java.io.Reader;

import org.springframework.stereotype.Component;

import com.lmt.config.UrlConstants;

@Component

public class ParseFile {

/**

* 解析html文件

* @param file

* @return

public String readHtml(File file){

String body = "";

try {

FileInputStream iStream = new FileInputStream(file);

Reader reader = new InputStreamReader(iStream);

BufferedReader htmlReader = new BufferedReader(reader);

String line;

boolean found = false;

while (!found && (line = htmlReader.readLine()) != nul

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

丛零

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

java读取html文件

十七的博客

03-21

1235

【代码】java读取html文件。

java实现读取html网页文件

08-27

可以读取任何html网页的内容,适用于读取网页内容保存到数据库字段中

参与评论您还未登录，请先登录后发表或查看评论

java 怎么获取一个html标签里面 style值各个标签的值

热门推荐

weixin_44237840的博客

05-05

1万+

一、对象的属性 1.document.title //设置文档的标题（HTML的title标签） 2.document.bgColor //设置背景页面的颜色 3.document.fgColor //设置前景色（文本颜色） 4.documen.URL //设置URL属性在同一个窗口打开其他页面 5.document.linkColor //未点击过的链接颜色 6....

java获取html文件的内容

HAN_789的博客

12-15

4741

1.获取文件名称路径 /** * 获取文件名 * *<hr> * @author hanjidong * @date 2020年11月17日下午3:05:51 * @since 0.0.1 * @param basePath * @param documentId * @param itemId * @param fileType * @return * String */ public static String buildFilen

java下载文件案例

06-01

通常，用户通过Web浏览器访问一个链接，服务器端的Java程序接收到请求后，读取指定的文件并将其内容发送回客户端，客户端浏览器则保存这个文件到本地。这个过程涉及到HTTP协议中的"Content-Disposition"和"Content-...

【Java】--文件上传/下载及存储案例

寻梦友的博客

06-04

881

最近遇到一个需求，要求上传/下载文件并存储。在完成对应需求开发过程中，遇到一些思考性问题。对于文件上传，平时遇到主要有这两种，一种是准备好的文件上传，另一种是一种网络地址url文件下载。同时，文件也有大小，如果是大型文件上传，可能网络传输耗时长并且中途中断等等问题。场景(1)、网络文件url上传;(2)、文件导入方式上传;思考(1)、对于大文件，如何上传？(2)、上传的文件，如何去管理这个文件？例如文件类型、文件大小、多少页等等。

java中http调用组件深入详解

congge

04-27

6731

java中http调用组件深入详解

java实现将html文件读取到txt中

04-15

java实现的可以将html文件读入到txt文件中，经过测试的，可以用。

java读取html文件_java怎样读取html文件

weixin_42305648的博客

02-12

2588

htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或提取html。它能超高速解析html，而且不会出错。现在htmlparser最新版本为2.0。毫不夸张地说，htmlparser就是目前最好的html解析和分析的工具。无论你是想抓取网页数据还是改造html的内容，用了htmlparser绝对会忍不住称赞例子：import java.io.Bu...

java获取html内容_java读取html文件，并获取body中所有的标签以及内容

weixin_31800911的博客

02-12

956

packagecom.lmt.service.file;importjava.io.BufferedReader;importjava.io.File;importjava.io.FileInputStream;importjava.io.InputStreamReader;importjava.io.Reader;importorg.springframework.stereotype.Comp...

java读取html文件并替换_java读取html并替换相关内容

weixin_33901995的博客

02-16

616

import java.io.*;/*** Created by IntelliJ IDEA.* User: zl420226* Date: 2010-4-10* Time: 13:58:23* To change this template use File | Settings | File Templates.*/public class ReplaceText {public static...

Java解析HTML文件

LL_YY_CC的博客

11-08

505

Java Element.select方法代码示例[自己记录留着学习]

java读取html

chqzhai的专栏

10-12

835

package test;import java.io.BufferedReader;import java.io.IOException;import java.io.InputStreamReader;import java.net.MalformedURLException;import java.net.URL;import java.util.ArrayList;import jav

java获取html标签中的内容_第3天：HTML 中的 head 标签

weixin_40002692的博客

12-01

532

昨天同学反馈的问题主要集中在以下几个：1.内容比较少，很快就学完了。目前内容确实比较简单，我在文末加入一些比较难的内容，有条件的同学可以提前学习。2.多讲一些原理性的内容。为了照顾所有的同学，还是从基础开始，后续会适当的增加一些除课程大纲外的内容。前面我们讲了 HTML 的基本结构，对于各个标签并没有深入讲解，今天我们学习 head 标签。先看一下 MDN 关于 head 标签的说明：T...

请给一个java使用rabbitmq读取消息队列中消息的使用案例

06-13

以下是Java使用RabbitMQ读取消息队列中消息的使用案例： 1. 连接RabbitMQ服务器 ``` Connection connection = factory.newConnection(); Channel channel = connection.createChannel(); ``` 2. 创建消息队列 ``` String queueName = "hello"; channel.queueDeclare(queueName, false, false, false, null); ``` 3. 接收消息 ``` Consumer consumer = new DefaultConsumer(channel) { @Override public void handleDelivery(String consumerTag, Envelope envelope, AMQP.BasicProperties properties, byte[] body) throws IOException { String message = new String(body, "UTF-8"); System.out.println("Received message: " + message); } }; channel.basicConsume(queueName, true, consumer); ``` 在以上代码中，我们使用DefaultConsumer类创建了一个消息消费者，并通过channel.basicConsume()方法开始消费消息。当消费者接收到消息时，handleDelivery()方法会被调用，我们可以在该方法中处理消息。 4. 关闭连接 ``` channel.close(); connection.close(); ``` 以上是读取消息队列中消息的基本使用案例，需要注意的是，读取消息队列的操作是阻塞的，即调用channel.basicConsume()方法后，程序会一直等待直到接收到消息。如果需要非阻塞地读取消息队列，可以使用channel.basicGet()方法，具体使用方法可以参考RabbitMQ官方文档和Java客户端库的文档。