关闭

Jsoup学习笔记5:Jsoup 解析SAZ文件中的htm文档源码实例

标签: jsoup实例javacsv源码
662人阅读 评论(0) 收藏 举报
分类:

       上一篇Jsoup学习笔记的小例子实现的功能是:解析saz格式文件中的htm文档,提取其中table标签内的数据,将解析到的数据写入txt文件中。本节做了一些改进,实现把提取的数据按照一定格式写入csv文档中,本来想把解析前的_index.htm文档附录一下供参考的,但不知道怎么传尴尬,如想验证本实例的话可以自己用Fiddler 2抓取网络操作生成一个saz文件,然后解压一下里面就有一个_index.htm文档。

示例如下 :

package com.daxiang.myjsoup;

import java.io.File;
import java.io.FileWriter;
import java.io.IOException;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;

/**
 * @Author:daxiang
 * @Date:2015-7-9
 * @Email:chenjinpeng0326@163.com
 * @Version:Version1.0
 * @CopyRight:daxiang
 * @Description: 解析SAZ格式文件中的htm文档,提取其中table标签内的数据,将解析到的数据写入TXT或者CSV文件中
 */
public class MyJsoupTest {

	public static void main(String args[]) throws IOException {

		// 导入htm文档
		File input = new File("C:\\myjsoup\\_index.htm");
		Document doc = Jsoup.parse(input, "UTF-8");

		// 提取表头信息
		Elements heads = doc.getElementsByTag("table").select("thead");
		FileWriter fw = new FileWriter("C:\\myjsoup\\1.csv", true);
		for (int m = 0; m < heads.size(); m++) {
			Elements head = heads.get(m).select("th");
			for (int n = 0; n < head.size(); n++) {
				// 经过观察,该htm文档table标签内共有23列数据,因为只需要第2至12列的数据,所以其他列排除掉不予提取
				if (n == 0) {
					continue;
				} else if (n < 22) {
					// text()方法和toString()方法的效果不同
					// String h = head.get(n).toString() + "\r\n";
					String h = head.get(n).text() + ",";
					fw.write(h);
					System.out.print(h);
				} else if (n == 22) {
					String h = head.get(n).text() + "\r\n";
					fw.write(h);
					System.out.print(h);
				} else {
					break;
				}
			}
		}

		// 提取表格信息
		Elements trs = doc.getElementsByTag("table").select("tr");
		for (int i = 0; i < trs.size(); i++) {
			Elements tds = trs.get(i).select("td");
			for (int j = 0; j < tds.size(); j++) {
				// 把空格无内容的部分去除掉
				// if(!"".equals(tds.get(j).text())){
				// String str = tds.get(j).text() + "\r\n";
				// System.out.print(str);
				// fw.write(str);
				// }
				if (j == 0) {
					continue;
				} else if (j < 22) {
					//加双引号的作用很大,有些数据是包含逗号的,不处理一下,本来在一个表格里的数据
					//会因为逗号的存在分开到好几列表格中
					String str1 = "\"" + tds.get(j).text() + "\"";
					String str2 = str1 + ",";
					//System.out.print(str2);
					fw.write(str2);
				} else if (j == 22) {
					String str3 = tds.get(j).text() + "\r\n";
					//System.out.print(str3);
					fw.write(str3);
				} else {
					break;
				}
			}
		}
		fw.flush();
		fw.close();

	}
}


0
0

查看评论
* 以上用户言论只代表其个人观点,不代表CSDN网站的观点或立场
    个人资料
    • 访问:29091次
    • 积分:459
    • 等级:
    • 排名:千里之外
    • 原创:15篇
    • 转载:19篇
    • 译文:1篇
    • 评论:0条