java读取html文件_java读取html文件,并获取body中所有的标签及内容的案例

这个案例展示了如何使用Java读取HTML文件,并提取body部分的所有标签及其内容。代码通过BufferedReader逐行读取文件,定位到body标签,并处理img标签的src属性,将相对路径转为绝对路径。
摘要由CSDN通过智能技术生成

这里的获取的是html文件中body中的所有标签以及内容

package com.lmt.service.file;

import java.io.BufferedReader;

import java.io.File;

import java.io.FileInputStream;

import java.io.InputStreamReader;

import java.io.Reader;

import org.springframework.stereotype.Component;

import com.lmt.config.UrlConstants;

@Component

public class ParseFile {

/**

* 解析html文件

* @param file

* @return

*/

public String readHtml(File file){

String body = "";

try {

FileInputStream iStream = new FileInputStream(file);

Reader reader = new InputStreamReader(iStream);

BufferedReader htmlReader = new BufferedReader(reader);

String line;

boolean found = false;

while (!found && (line = htmlReader.readLine()) != nul

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值