Spring Boot 菜鸟教程 11 html页面解析-jsoup

本文档介绍了如何使用Spring Boot结合jsoup进行HTML解析和数据抓取,对比了jsoup和htmlparser的特点。通过实例展示了从准备doc文档到使用Freemarker导出Word的流程,并提供了完整的源码地址。
摘要由CSDN通过智能技术生成

GitHub

src="//ghbtns.com/github-btn.html?user=je-ge&repo=spring-boot&type=watch&count=true" scrolling="0" width="110" height="20">

需求

  • 需要对一个页面进行数据抓取,并导出doc文档

html解析器

jsoup
  • 可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操作数据。
htmlparser
  • 提供了线性和嵌套两种方式来解析网页,主要用于 html 网页的转换(Transformation) 以及网页内容的抽取 (Extraction)。
比较一下
  • jsoup可以直接拿,类似jquery的选择器一样用起来比较好上手。htmlparser结构简单功能强大,难上手,但是自主度高

准备doc文档并另存为xml文件

这里写图片描述

项目图片

这里写图片描述

pom.xml

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.10.1</version>
</dependency>

操作流程

  • 把xml文件修改名为Hibernate.ftl后拷贝文件到src/main/resources
  • 原来xml文件
<w:body>
    <w:p>
        <w:pPr>
            <w:pStyle w:val="2" />
            <w:jc w:val="center" />
            <w:rPr>
                <w:rFonts w:hint="eastAsia" />
                <w:lang w:val="en-US" w:eastAsia="zh-CN" />
            </w:rPr>
        </w:pPr>
        <w:r>
            <w:rPr>
                <w:rFonts w:hint="eastAsia" />
                <w:lang w:val="en-US" w:eastAsia="zh-CN" />
            </w:rPr>
            <w:t>Hibernate</w:t>
        </w:r>
    </w:p>
    <w:p>
        <w:pPr>
            <w:rPr>
                <w:rFonts w:hint="eastAsia" w:ascii="微软雅黑" w:hAnsi="微软雅黑" w:eastAsia="微软雅黑" w:cs="微软雅黑" />
                <w:b w:val="0" />
                <w:i w:val="0" />
                <w:caps w:val="0" />
                <w:color w:val="555555" />
                <w:spacing w:val="0" />
                <w:sz w:val="21" />
                <w:szCs w:val="21" />
                <w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" />
            </w:rPr>
        </w:pPr>
        <w:r>
            <w:rPr>
                <w:rFonts w:ascii="微软雅黑" w:hAnsi="微软雅黑" w:eastAsia="微软雅黑" w:cs="微软雅黑" />
                <w:b w:val="0" />
                <w:i w:val="0" />
                <w:caps w:val="0" />
                <w:color w:val="555555" />
                <w:spacing w:val="0" />
                <w:sz w:val="21" />
                <w:szCs w:val="21" />
                <w:shd w:val="clear" w:color="auto" w:fill="FFFFFF" />
            </w:rPr>
            <w:t>你还在为不知道怎样正确使用Hibernate而纠结吗</w:t>
        </w:r>
        <w:r>
            <w:rPr>
                <w:rFonts w:ascii="微软雅黑" w:hAnsi="微软雅黑" w:eastAsia="微软雅黑" w:cs="微软雅黑" />
                
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值