HTML网页转DOC文档

1、引入POM相关包

<properties>
    <poi.version>4.1.2</poi.version>
</properties>
<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.13.1</version>
</dependency>
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi</artifactId>
    <version>${poi.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml</artifactId>
    <version>${poi.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-ooxml-schemas</artifactId>
    <version>${poi.version}</version>
</dependency>
<dependency>
    <groupId>org.apache.poi</groupId>
    <artifactId>poi-scratchpad</artifactId>
    <version>${poi.version}</version>
</dependency>

2、代码编写

import org.apache.commons.lang3.StringUtils;
import org.apache.poi.poifs.filesystem.DirectoryEntry;
import org.apache.poi.poifs.filesystem.POIFSFileSystem;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.springframework.web.multipart.MultipartFile;
import java.io.File;
import java.io.FileOutputStream;
import java.text.SimpleDateFormat;
import java.util.Date;
import java.io.*;
import java.util.*;


public class World {


    /**
     * Html转Word
     * @author zsj
     */
    public static MultipartFile htmlToWord(String html, String filePath)  throws Exception {
        // 1.生成文件名称
        SimpleDateFormat sdf = new SimpleDateFormat("yyyyMMddHHmmss");
        String fileName = filePath+"/"+"LangChain" + sdf.format(new Date())+".doc";
        // 返回MyltipartFile类
        MultipartFile multipartFile = null;
        if (StringUtils.isNotEmpty(html)) {
            if (StringUtils.isNotEmpty(html)) {
                // 生成临时文件(doc)
                try {
                    // 生成doc格式的word文档,需要手动改为docx
                    byte by[] = html.getBytes("UTF-8");
                    ByteArrayInputStream byteArrayInputStream = new ByteArrayInputStream(by);
                    POIFSFileSystem poifsFileSystem = new POIFSFileSystem();
                    DirectoryEntry directoryEntry = poifsFileSystem.getRoot();
                    directoryEntry.createDocument("WordDocument", byteArrayInputStream);
                    // 临时文件夹
// 临时文件夹
                    String sqlFilePath = "I:\\supply-link\\工作" + File.separator + "patrolReport" + File.separator + "temp_" + UUID.randomUUID();
                    File directory = new File(sqlFilePath);
                    if (!directory.exists()) {
                        directory.mkdirs();
                    }


                    // 文件路径
                    String fileUrl = filePath + File.separator + "招标公告详情.doc";
                    // 保存doc文档
                    FileOutputStream outputStream = new FileOutputStream(fileUrl);
                    poifsFileSystem.writeFilesystem(outputStream);
                    byteArrayInputStream.close();
                    outputStream.close();
                    File file = new File(fileUrl);

                } catch (Exception e) {
                    e.printStackTrace();
                }
            }


        }
        return multipartFile;
    }

    public static void main(String[] args) {
        String htmlUrl = "***"; // 替换为你要解析的HTML页面的URL
        try {
            // 解析HTML
            Document doc = Jsoup.connect(htmlUrl).get();
            String htmlSection = doc.select(".Content").html();
            //String html =World.html ;
            String filePath="I:\\supply-link\\工作";
            htmlToWord(htmlSection, filePath);

        } catch (Exception e) {
            e.printStackTrace();
        }
    }
}

3、页面效果

3、word成品效果

  • 7
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 我可以回答这个问题。您可以使用 Node.js 中的 request 和 cheerio 模块来爬取网页中的 doc 文件。首先,使用 request 模块获取网页的 HTML 内容,然后使用 cheerio 模块解析 HTML,找到 doc 文件的链接,最后使用 request 模块下载该文件。需要注意的是,爬取网页内容可能涉及到法律问题,请遵守相关法律法规。 ### 回答2: JS爬取网页doc文件的步骤如下: 1. 首先,需要使用合适的JS库来处理网络请求和文档操作。比较常用的有axios、node-fetch等用于发送HTTP请求,以及jsdom、cheerio等用于解析HTML文档的库。 2. 在代码中,使用上述库发送GET请求,获取到目标网页的HTML内容。 3. 然后,使用解析库来解析获取到的HTML内容,通过查找特定的元素或属性,定位到需要的doc文件的下载链接。 4. 获取到doc文件的下载链接后,再次使用HTTP请求库发送GET请求,下载该doc文件到本地。 5. 下载完成后,即可对该doc文件进行后续的操作,比如读取文件内容或存储到其他地方。 需要注意的是,网页的结构和元素可能会随着时间的推移而改变,需要根据实际情况进行相应的调整和处理。此外,爬取网页内容可能涉及到法律和道德问题,需要遵循相关规定和准则,确保合法合规。最好在进行任何网页爬取之前,先了解目标网站的爬取政策,并尊重该政策。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值