java读取html文件并替换_利用java实现读取html文件中的body标签和内容

最新推荐文章于 2021-06-30 15:41:00 发布

weixin_39865952

最新推荐文章于 2021-06-30 15:41:00 发布

阅读量1.2k

点赞数 1

文章标签： java读取html文件并替换

本文链接：https://blog.csdn.net/weixin_39865952/article/details/114306001

版权

本文介绍如何利用Java读取HTML文件，并提取body标签内的内容。通过示例代码展示如何查找并处理body标签，同时讲解了处理图片路径的方法，确保文件能正确解析。此外，还提醒读者注意确保相关jar包已正确导入。

摘要由CSDN通过智能技术生成

利用java实现读取html文件中的body标签和内容

发布时间：2020-11-09 15:31:58

来源：亿速云

阅读：69

作者：Leah

利用java实现读取html文件中的body标签和内容？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。

这里的获取的是html文件中body中的所有标签以及内容

package com.lmt.service.file;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileInputStream;

import java.io.InputStreamReader;

import java.io.Reader;

import org.springframework.stereotype.Component;

import com.lmt.config.UrlConstants;

@Component

public class ParseFile {

/**

* 解析html文件

* @param file

* @return

public String readHtml(File file){

String body = "";

try {

FileInputStream iStream = new FileInputStream(file);

Reader reader = new InputStreamReader(iStream);

BufferedReader htmlReader = new BufferedReader(reader);

String line;

boolean found = false;

while (!found && (line = htmlReader.readLine()) != null) {

if (line.toLowerCase().indexOf("

的前面可能存在空格

found = true;

}

found = false;

while (!found && (line = htmlReader.readLine()) != null) {

if (line.toLowerCase().indexOf("

found = true;

} else {

// 如果存在图片，则将相对路径转换为绝对路径

String lowerCaseLine = line.toLowerCase();

if (lowerCaseLine.contains("src")) {

//这里是定义图片的访问路径

String directory = "D:/test";

// 如果路径名不以反斜杠结尾，则手动添加反斜杠

/*if (!directory.endsWith("\\")) {

directory = directory + "\\";

}*/

// line = line.substring(0, lowerCaseLine.indexOf("src") + 5) + directory + line.substring(lowerCaseLine.indexOf("src") + 5);

/*String filename = extractFilename(line);

line = line.substring(0, lowerCaseLine.indexOf("src") + 5) + directory + filename + line.substring(line.indexOf(filename) + filename.length());

// 如果该行存在多个元素，则分行进行替代

String[] splitLines = line.split("

// 因为java中引用的问题不能使用for each

for (int i = 0; i < splitLines.length; i++) {

if (splitLines[i].toLowerCase().startsWith("src")) {

splitLines[i] = splitLines[i].substring(0, splitLines[i].toLowerCase().indexOf("src") + 5)

+ directory

+ splitLines[i].substring(splitLines[i].toLowerCase().indexOf("src") + 5);

}

// 最后进行拼接

line = "";

for (int i = 0; i < splitLines.length - 1; i++) { // 循环次数要-1，因为最后一个字符串后不需要添加

line = line + splitLines[i] + "

}

line = line + splitLines[splitLines.length - 1];

}

body = body + line + "\n";

}

htmlReader.close();

// System.out.println(body);

} catch (Exception e) {

e.printStackTrace();

}

return body;

}

/**

* @param htmlLine 一行html片段，包含元素

* @return 文件名

public static String extractFilename(String htmlLine) {

int srcIndex = htmlLine.toLowerCase().indexOf("src=");

if (srcIndex == -1) { // 图片不存在，返回空字符串

return "";

} else {

String htmlSrc = htmlLine.substring(srcIndex + 4);

char splitChar = '\"'; // 默认为双引号，但也有可能为单引号

if (htmlSrc.charAt(0) == '\'') {

splitChar = '\'';

}

String[] firstSplit = htmlSrc.split(String.valueOf(splitChar));

String path = firstSplit[1]; // 第0位为空字符串

String[] secondSplit = path.split("[/\\\\]"); // 匹配正斜杠或反斜杠

return secondSplit[secondSplit.length - 1];

}

补充知识：StandardEngine[Catalina].StandardHost[localhost].StandardContext[]

jar包没有正确导入

1、在 build path 中添加

2、如果这里不添加在编译的时你的jar包将不会被导入

3、如果依然没有成功请删除user jar包重新导入

关于利用java实现读取html文件中的body标签和内容问题的解答就分享到这里了，希望以上内容可以对大家有一定的帮助，如果你还有很多疑惑没有解开，可以关注亿速云行业资讯频道了解更多相关知识。

weixin_39865952

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
java读取html文件并替换_利用java实现读取html文件中的body标签和内容

利用java实现读取html文件中的body标签和内容发布时间：2020-11-09 15:31:58来源：亿速云阅读：69作者：Leah利用java实现读取html文件中的body标签和内容？针对这个问题，这篇文章详细介绍了相对应的分析和解答，希望可以帮助更多想解决这个问题的小伙伴找到更简单易行的方法。这里的获取的是html文件中body中的所有标签以及内容package com.lmt.ser...
复制链接

扫一扫