java HttpURLConnection抓取网页内容，将DOM文档转化成XM

最新推荐文章于 2022-06-17 12:19:41 发布

iteye_8203

最新推荐文章于 2022-06-17 12:19:41 发布

阅读量489

点赞数

文章标签： java 人工智能数据库

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/iteye_8203/article/details/82600896

版权

在工作中要通java获取整个网页的html内容，或者某个网络文件的内容。这里我们可以使用java提供的HttpURLConnection类来实现对网页内容的抓取。

抓取爱图网www.iitu.net首页的内容，　在代码中我们将百度首页的内容存储到了一个byte数组中，当然我们有了 IO流以后还可以存储到文件中去了。

URL url = new URL("http://www.iitu.net");
HttpURLConnection urlCon=(HttpURLConnection)url.openConnection();
urlCon.setConnectTimeout(50000);
urlCon.setReadTimeout(300000);
DataInputStream fIn;
byte[] content = new byte[MAX_FILE_SIZE];
fIn = new DataInputStream(urlCon.getInputStream());
int size = 0,f_size = 0;
while((size = fIn.read(content,f_size,2048))> 0){
f_size += size;
}

java实现从网页上抓取数据后写入本地库，我用的是DOM文档对象模型来抓取数据的，数据已经取到，我想把他写入文本文件不知道怎么实现？还有就是分析结构化数据写入数据库该怎么来实现才好？

将DOM文档转化成XML文件

// 获得将DOM文档转化为XML文件的转换器，有类TransformerFactory
// 来实现，类Transformer实现转化API。
TransformerFactory tfactory = TransformerFactory.newInstance();
Transformer transformer = tfactory.newTransformer();
// 将DOM对象转化为DOMSource类对象，该对象表现为转化成别的表达形式的信息容器。
DOMSource source = new DOMSource(document);
// 获得一个StreamResult类对象，该对象是DOM文档转化成的其他形式的文档的容器，可以是XML文件，文本文件，HTML文件。这里为一个XML文件。
StreamResult result = new StreamResult(new File(“text.xml”));
// 调用API，将DOM文档转化成XML文件。
transformer.transform(source,result);

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。