声明:浙大java课程小作业
作者:GeSq
功能描述
爬取今日头条文章的图片和正文文字。仅适用与头条文章版网页,不支持相册版网页。
UI界面
网址:输入今日头条文字的url,例如
https://www.toutiao.com/a6426655544824905985/
https://www.toutiao.com/a6426655544824905985/
https://www.toutiao.com/a6485971081961144846/
导出目录:自己填写导出目录。如果不填,默认是当前目录。
点击按钮进行爬取。
结果
逻辑:
输入url,爬取对应url里的HTML文件,从中筛选出image的url放入List中,然后逐个下载到本地文件夹。爬取对应文本,然后写入本地文档。
代码
Main.java
import java.io.ByteArrayOutputStream;
import java.io.File;
import java.io.FileOutputStream;
import java.io.InputStream;
import java.net.HttpURLConnection;
import java.net.URL;
public class Main{
public static void main(String[] args) {
SwingDemo demo = new SwingDemo();
}
}
SwingDemo.java
import sun.java2d.loops.FillPath;
import javax.swing.*;
import java.awt.*;
import java.awt.event.ActionEvent;
import java.awt.event.ActionListener;
import java.io.File;
/**
* Created by geshuaiqi on 2017/11/9.
*/
public class SwingDemo extends JFrame
{
private String mHttpurl; // 网络url
private String mLocalurl;// 本地url
private String mFilePath;
public String getmLocalurl(){
return mLocalurl;
}
public String getmHttpurl(){
return mHttpurl;
}
public String getmFilePath(){
return mFilePath;
}
public SwingDemo()
{
super("头条爬虫助手");
JFrame frame =new JFrame("头条爬虫助手"); //设置标题
frame.setSize(300,120); //设置窗口大小
JPanel panel_up=new JPanel(); // JFrame 里上下两个部分
JPanel panel_bottom=new JPanel();
frame.setLayout(new BorderLayout());
frame.add(panel_up,BorderLayout.CENTER); // 输入内容居中
frame.add(panel_bottom,BorderLayout.SOUTH); <