java如何截取网页数据_一段截取处理含有table布局的网页内容java程序

最新推荐文章于 2022-10-31 13:31:52 发布

weixin_39760065

最新推荐文章于 2022-10-31 13:31:52 发布

阅读量156

点赞数

文章标签： java如何截取网页数据

本文链接：https://blog.csdn.net/weixin_39760065/article/details/114675186

版权

本文介绍如何利用Java的Jsoup库解析并截取含有table布局的网页内容。通过示例代码展示了如何获取HTML文档中的tr和td元素，并存储到数据结构中。

摘要由CSDN通过智能技术生成

利用jsoup来处理含有html码的数据流。

package com.cn;

import java.util.ArrayList;

import java.util.HashMap;

import java.util.List;

import java.util.Map;

import org.jsoup.Jsoup;

import org.jsoup.nodes.Document;

import org.jsoup.select.Elements;

public class cv {

/**

* @param args

/**

* @param args

public static void main(String[] args) {

// TODO Auto-generated method stub

Elements tds=null;

String html="gfg

1	yecao
2	yc

";//测试内容

List> list = new ArrayList>();

//开始使用Jsoup

//Jsoup支援一个Document类将刚才的html转化成Document

Document document = Jsoup.parse(html);

//一个Document又由elements组成我们选择”tr”开头的标签，存入 trs元素群中

Elements trs = document.select("tr");

//得到整个HTML中包含tr的标签的个数

int totalTrs = trs.size();

//我们可以观察上面没有搜索结果的那个HTML。发现，如果totalTrs<=3就表示没结果。

//只要有书目结果totalTrs必定大于3，于是

if(totalTrs > 0)

for(int i = 0;i < totalTrs ;i++)

{

//观察HTML，从第i+2个tr开始，包含的才是我们要的书目信息

//我们从每个tr中选出td标签元素群

tds = trs.get(i).select("td");

//得到每个tr中td的个数

int totalTds = tds.size();

//一个临时的HashMap，里面是String-Object键值对

Map map = new HashMap();

//j是一个标识数

for(int j =0;j < totalTds ;j++)

{

switch (j) {

case 0:

map.put("001", tds.get(j).html().toString());

break;

case 1:

map.put("002", tds.get(j).html().toString());

break;

default:

break;

}

list.add(map);

}

System.out.println(document);

System.out.println(trs);

System.out.println(trs.size());

System.out.println(tds);

System.out.println(tds.size());

System.out.println(list);

}

命令框显示内容：

weixin_39760065

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫