java爬虫初体验

最新推荐文章于 2024-01-06 16:50:48 发布

vay_ee

最新推荐文章于 2024-01-06 16:50:48 发布

阅读量97

点赞数

文章标签： java 爬虫后端 intellij idea

本文链接：https://blog.csdn.net/vay_ee/article/details/108917417

版权

##java 爬虫初体验
编译一个可以爬取网站首页html文件的小爬虫程序
并将爬取的文件保存到自定义路径中。

public class WebSpidTest {

    public static void main(String[] args) throws IOException {
        //获取URL
        URL url=new URL("https://music.163.com/");
        //下载资源
        //InputStream is =url.openStream();
        
        HttpURLConnection   conn=(HttpURLConnection) url.openConnection();

        conn.setRequestMethod("GET");
        conn.setRequestProperty("User-Agent","Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.100 Safari/537.36");

        BufferedReader  br =new BufferedReader( new InputStreamReader(conn.getInputStream(),"UTF-8"));
        BufferedWriter bw=new BufferedWriter(new OutputStreamWriter(new FileOutputStream(new File("D:\\JavaWorld\\爬虫文件夹\\网易云首页"+new SimpleDateFormat("yyyy-MM-dd").format(new Date())+".html"))));

        String msg=null;
        while(null!=(msg=br.readLine())) {
            bw.write(msg);
            bw.newLine();

        }

        br.close();
        bw.close();

        //分析
        //处理

    }

}

vay_ee

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java爬虫初体验

爬虫初体验编译一个可以爬取网站首页html文件的小爬虫程序并将爬取的文件保存到自定义路径中。public class WebSpidTest { public static void main(String[] args) throws IOException { //获取URL URL url=new URL("https://music.163.com/"); //下载资源 //InputStream is =url.ope
复制链接

扫一扫