使用jsoup简单实现爬虫

最新推荐文章于 2023-07-17 16:58:52 发布

懦夫救星*

最新推荐文章于 2023-07-17 16:58:52 发布

阅读量236

点赞数

本文链接：https://blog.csdn.net/v790873/article/details/101481002

版权

这篇博客介绍了如何利用jsoup库进行简单的网页爬虫操作。首先，从jsoup官网下载并导入到Eclipse。接着，分析目标网站，确定要抓取的数据、所在页面及页面链接方式。然后，通过选择器选取数据并存储到数据库。对于列表页，同样应用选择器获取信息，并循环抓取下一页数据，实现爬虫的自动化流程。

摘要由CSDN通过智能技术生成

此为jsoup官网地址：https://jsoup.org/

从官网下载jar包后导入eclipse

package cn.zsyy.spider;

import java.io.IOException;
import java.util.HashMap;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import cn.zsyy.db.Dao;


public class Article {
	static String yyxwurl = "需要爬取的网站";
	static String host = "网站根目录";
	
	static void innit() throws IOException{
		
		Document document = Jsoup.connect(yyxwurl).get();
	}
	
	static void getlistUrL(String nextUrl) throws IOException{
		String url = nextUrl;
		Document document = Jsoup.connect(url).get(); 
		Element first = document.select(".next").first();
		if (!first.equals("javascript:void(0);")) {
			String

最低0.47元/天解锁文章

懦夫救星*

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
使用jsoup简单实现爬虫

此为jsoup官网地址：https://jsoup.org/从官网下载jar包后导入eclipsepackage cn.zsyy.spider;import java.io.IOException;import java.util.HashMap;import java.util.regex.Matcher;import java.util.regex.Patte...
复制链接

扫一扫