java爬取任何指定网页得数据

最新推荐文章于 2025-04-30 17:45:06 发布

原创最新推荐文章于 2025-04-30 17:45:06 发布 · 552 阅读

0 ·

CC 4.0 BY-SA版权

本文介绍了一种使用Java的.net包从指定网址抓取数据的方法，并演示了如何将抓取到的数据自动生成HTML文件的过程。代码示例清晰地展示了URL加载、字符集设置、读取网页内容及写入本地文件的步骤。

通过java中的.net包抓取网页上的数据，并且自动生成文件，详细代码如下：

import java.io.BufferedReader;
import java.io.BufferedWriter;
import java.io.FileWriter;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.MalformedURLException;
import java.net.URL;
import java.nio.charset.Charset;


public class test {


public static void main(String[] args) throws IOException{
String charset = "utf-8";
URL url = new URL("http://www.sina.com.cn/");
BufferedReader reader = new BufferedReader(new InputStreamReader(url.openStream(),charset));
BufferedWriter write = new BufferedWriter(new FileWriter("data.html"));
String line;
while ((line = reader.readLine()) != null) {
System.out.println(line);
write.write(line);
write.newLine();
}
reader.close();
write.close();
}
}