java HttpURLConnection抓取网页内容,将DOM文档转化成XM

在工作中要通java获取整个网页的html内容,或者某个网络文件的内容。这里我们可以使用java提供的HttpURLConnection类来实现对网页内容的抓取。

抓取爱图网www.iitu.net首页的内容, 在代码中我们将百度首页的内容存储到了一个byte数组中,当然我们有了 IO流以后还可以存储到文件中去了。

 

  1. URL url = new URL("http://www.iitu.net");  
  2. HttpURLConnection urlCon=(HttpURLConnection)url.openConnection();  
  3. urlCon.setConnectTimeout(50000);  
  4. urlCon.setReadTimeout(300000);  
  5. DataInputStream fIn;  
  6. byte[] content = new byte[MAX_FILE_SIZE];  
  7. fIn = new DataInputStream(urlCon.getInputStream());  
  8. int size = 0,f_size = 0;  
  9. while((size = fIn.read(content,f_size,2048))> 0){  
  10.     f_size += size;  
  11. }  

 

java实现从网页上抓取数据后写入本地库,我用的是DOM文档对象模型来抓取数据的,数据已经取到,我想把他写入文本文件不知道怎么实现?还有就是分析结构化数据写入数据库该怎么来实现才好?

将DOM文档转化成XML文件 

  1. // 获得将DOM文档转化为XML文件的转换器,有类TransformerFactory  
  2. // 来实现,类Transformer实现转化API。  
  3.             TransformerFactory tfactory = TransformerFactory.newInstance();  
  4.             Transformer transformer = tfactory.newTransformer();  
  5. // 将DOM对象转化为DOMSource类对象,该对象表现为转化成别的表达形式的信息容器。  
  6.             DOMSource source = new DOMSource(document);  
  7. // 获得一个StreamResult类对象,该对象是DOM文档转化成的其他形式的文档的容器,可以是XML文件,文本文件,HTML文件。这里为一个XML文件。  
  8.             StreamResult result = new StreamResult(new File(“text.xml”));  
  9. // 调用API,将DOM文档转化成XML文件。  
  10.             transformer.transform(source,result); 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值