Atitit table的读取解析from html by jsoup java html paresr 目录 1. atitit.gui控件的定位与选择器 1 2. 读取表格流程 遍历表格ta

Atitit  table的读取解析from html by jsoup java html paresr

 

目录

1. atitit.gui控件的定位与选择器 1

2. 读取表格流程  遍历表格table 2

3. W3cdom标准化 2

3.1. HTML DOM 对象 2

3.2. Document 对象方法 2

4. /0NetApiPrj/src/htmlParseCls.java 2

 

 

html

 

 

  1. atitit.gui控件的定位与选择器

 

1. css选择器 1

2. 基本过滤选择器: 1

3. 内容过滤选择器: 2

4. 可视化过滤选择器: 2

5. 属性过滤选择器: 2

6. 子元素过滤选择器: 2

7. java jsoup的过滤器 2

7.1. css过滤器 2

7.2. 内容过滤器(带排除) 3

8. 参考 4

 

  1. 读取表格流程  遍历表格table
  2. W3cdom标准化
    1. HTML DOM 对象

 

    1. Document 对象方法

方法

描述

close()

关闭用 document.open() 方法打开的输出流,并显示选定的数据。

getElementById()

返回对拥有指定 id 的第一个对象的引用。

getElementsByName()

返回带有指定名称的对象集合。

getElementsByTagName()

返回带有指定标签名的对象集合。

open()

打开一个流,以收集来自任何 document.write() 或 document.writeln() 方法的输出。

write()

向文档写 HTML 表达式 或 JavaScript 代码。

writeln()

等同于 write() 方法,不同的是在每个表达式之后写一个换行符。

 

 

 

Prj

/0NetApiPrj

  1. /0NetApiPrj/src/htmlParseCls.java

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.nodes.Element;

import org.jsoup.select.Elements;

 

public class htmlParseCls {

 

public static void main(String[] args) throws IOException {

String ht = "D:\\workspace\\0NetApiPrj\\assetsList.html";

Document doc = Jsoup.parse(new File(ht), "gbk");

Element Element_tab_elmt = doc.getElementById("table1");

Elements Elements_trs = Element_tab_elmt.getElementsByTag("tr");

for (Element element_tr : Elements_trs) {

Elements element_tr_tds = element_tr.getElementsByTag("td");

Map m = new HashMap();

m.put("no编号", element_tr_tds.get(0).text());

m.put("dept单位", element_tr_tds.get(1).text());

System.out.println(m);

}

}

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值