Java爬虫高级版(今日头条)

本文介绍了一个Java爬虫项目,用于爬取今日头条文章的图片和正文内容。用户输入文章URL,程序会解析HTML,提取图片链接并下载,同时将正文文字保存到本地文档。涉及到的主要类包括Main.java、SwingDemo.java和Crawler.java。
摘要由CSDN通过智能技术生成

声明:浙大java课程小作业
作者:GeSq

功能描述

爬取今日头条文章的图片和正文文字。仅适用与头条文章版网页,不支持相册版网页。

UI界面

这里写图片描述

网址:输入今日头条文字的url,例如
https://www.toutiao.com/a6426655544824905985/
https://www.toutiao.com/a6426655544824905985/
https://www.toutiao.com/a6485971081961144846/

导出目录:自己填写导出目录。如果不填,默认是当前目录。

点击按钮进行爬取。

结果

这里写图片描述
这里写图片描述

这里写图片描述

逻辑:

输入url,爬取对应url里的HTML文件,从中筛选出image的url放入List中,然后逐个下载到本地文件夹。爬取对应文本,然后写入本地文档。

代码

Main.java

import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;
public class Main{
   
    public static void main(String[] args) {
        SwingDemo demo = new SwingDemo();
    }
}

SwingDemo.java

import sun.java2d.loops.FillPath;

import javax.swing.*;
import java.awt.*;
import java.awt.event.ActionEvent;
import java.awt.event.ActionListener;
import java.io.File;

/**
 * Created by geshuaiqi on 2017/11/9.
 */
public class SwingDemo extends JFrame
{
   
    private String mHttpurl; // 网络url
    private String mLocalurl;// 本地url
    private String mFilePath;

    public String getmLocalurl(){
        return  mLocalurl;
    }

    public String getmHttpurl(){
        return mHttpurl;
    }

    public String getmFilePath(){
        return mFilePath;
    }

    public SwingDemo()
    {
        super("头条爬虫助手");
        JFrame frame =new JFrame("头条爬虫助手"); //设置标题
        frame.setSize(300,120); //设置窗口大小
        JPanel panel_up=new JPanel();   // JFrame 里上下两个部分
        JPanel panel_bottom=new JPanel();

        frame.setLayout(new BorderLayout());
        frame.add(panel_up,BorderLayout.CENTER);    // 输入内容居中
        frame.add(panel_bottom,BorderLayout.SOUTH); <
  • 1
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值