利用Jsoup爬取网页
该代码利用了jsoup去爬取网页,代码在网上搜罗而来,并将他们拼凑起来,实现了爬取1个网页上的文字、图片内容。并保存到本地文件夹中,如路径不存在,则新建文件夹
使用此代码需要下载jsoup的jar包
下载地址
也可以自己找其他地址去下载
代码编写工具:IDEA
注意:生成的文本文件名字可能为空,所以当你没有改名,就再一次去爬取另一个网站,文本内容将被新的文本覆盖,图片则不受影响
会修改的同学可以解决一下这个问题
package com.jiu.data.spiderCanUse;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import java.io.*;
import java.net.MalformedURLException;
import java.net.URL;
import java.net.URLConnection;
import java.net.URLEncoder;
import org.jsoup.select.Elements;
public class getHtmlAll {
// 指定文件保存路径为:E:/struct
private static String path = "E:\\struct/";
private static String filenameTemp;
public static void main (String[] args) throws IOException {
System.out.println("开始爬取网页内容...");
// 如果指定的路径不存在,则创建
File dir = new File(path);
if (!dir.exists()) {
dir.mkdirs();
}
//爬取文字内容
final String url = "http://www.baidu.com";
//爬取图片,上下的2个网站需要相同,确保爬的是同一个页面的内容
Connection connection = Jsoup.connect("http://www.baidu.com");
try {
//先获得的是整个页面的html标签页面,输出到控制台
Document doc = Jsoup.connect(url).get();
String doc2 = doc.html();
System.out.println(doc);
//通过标签,获取正文标题
Elements tit = doc.select("h2");
String title = tit.text();
System.out.println(