在一个html文件的body中,java读取html文件,并获取body中所有的标签及内容的案例

最新推荐文章于 2022-10-19 18:38:29 发布

weixin_39654751

最新推荐文章于 2022-10-19 18:38:29 发布

阅读量444

点赞数

文章标签：在一个html文件的body中

这里的获取的是html文件中body中的所有标签以及内容

package com.lmt.service.file;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileInputStream;

import java.io.InputStreamReader;

import java.io.Reader;

import org.springframework.stereotype.Component;

import com.lmt.config.UrlConstants;

@Component

public class ParseFile {

/**

* 解析html文件

* @param file

* @return

*/

public String readHtml(File file){

String body = "";

try {

FileInputStream iStream = new FileInputStream(file);

Reader reader = new InputStreamReader(iStream);

BufferedReader htmlReader = new BufferedReader(reader);

String line;

boolean found = false;

while (!found && (line = htmlReader.readLine()) != null) {

if (line.toLowerCase().indexOf("

的前面可能存在空格

found = true;

}

}

found = false;

while (!found && (line = htmlReader.readLine()) != null) {

if (line.toLowerCase().indexOf("

found = true;

} else {

// 如果存在图片，则将相对路径转换为绝对路径

String lowerCaseLine = line.toLowerCase();

if (lowerCaseLine.contains("src")) {

//这里是定义图片的访问路径

String directory = "D:/test";

// 如果路径名不以反斜杠结尾，则手动添加反斜杠

/*if (!directory.endsWith("\\")) {

directory = directory + "\\";

}*/

// line = line.substring(0, lowerCaseLine.indexOf("src") + 5) + directory + line.substring(lowerCaseLine.indexOf("src") + 5);

/*String filename = extractFilename(line);

line = line.substring(0, lowerCaseLine.indexOf("src") + 5) + directory + filename + line.substring(line.indexOf(filename) + filename.length());

*/

// 如果该行存在多个元素，则分行进行替代

String[] splitLines = line.split("

// 因为java中引用的问题不能使用for each

for (int i = 0; i < splitLines.length; i++) {

if (splitLines[i].toLowerCase().startsWith("src")) {

splitLines[i] = splitLines[i].substring(0, splitLines[i].toLowerCase().indexOf("src") + 5)

+ directory

+ splitLines[i].substring(splitLines[i].toLowerCase().indexOf("src") + 5);

}

}

// 最后进行拼接

line = "";

for (int i = 0; i < splitLines.length - 1; i++) { // 循环次数要-1，因为最后一个字符串后不需要添加

line = line + splitLines[i] + "

}

line = line + splitLines[splitLines.length - 1];

}

body = body + line + "\n";

}

}

htmlReader.close();

// System.out.println(body);

} catch (Exception e) {

e.printStackTrace();

}

return body;

}

/**

*

* @param htmlLine 一行html片段，包含元素

* @return 文件名

*/

public static String extractFilename(String htmlLine) {

int srcIndex = htmlLine.toLowerCase().indexOf("src=");

if (srcIndex == -1) { // 图片不存在，返回空字符串

return "";

} else {

String htmlSrc = htmlLine.substring(srcIndex + 4);

char splitChar = '\"'; // 默认为双引号，但也有可能为单引号

if (htmlSrc.charAt(0) == '\'') {

splitChar = '\'';

}

String[] firstSplit = htmlSrc.split(String.valueOf(splitChar));

String path = firstSplit[1]; // 第0位为空字符串

String[] secondSplit = path.split("[/\\\\]"); // 匹配正斜杠或反斜杠

return secondSplit[secondSplit.length - 1];

}

}

}

补充知识：StandardEngine[Catalina].StandardHost[localhost].StandardContext[]

jar包没有正确导入

1、在 build path 中添加

2、如果这里不添加在编译的时你的jar包将不会被导入

3、如果依然没有成功请删除user jar包重新导入

以上这篇java读取html文件,并获取body中所有的标签及内容的案例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持龙方网络。

weixin_39654751

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
在一个html文件的body中,java读取html文件,并获取body中所有的标签及内容的案例

这里的获取的是html文件中body中的所有标签以及内容package com.lmt.service.file;import java.io.BufferedReader;import java.io.File;import java.io.FileInputStream;import java.io.InputStreamReader;import java.io.Reader;import ...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。