使用Jsoup工具的网络爬虫案例----从https://www.csdn.net/网站中获得与“企业博客”相关的数据

使用Jsoup工具的网络爬虫案例----从https://www.csdn.net/网站中获得与“企业博客”相关的数据

Jsoup工具能极大的简化我们写爬虫程序的代码量,是一个很方便的工具。
Jsoup的下载和导入流程:
1.下载Jsoup
官网:https://jsoup.org/

2.给项目/模块引入第三方库

3.开始编写代码


import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class PaChongJsoup {

	public static void main(String[] args) throws Exception {
		// 创建Jsoup文档对象
		Document doc = Jsoup.connect("https://www.csdn.net").get();
		// 输出该文档标题
		System.out.println(doc.title());

		// 通过css选择器来获得获得企业博客中企业的log图片标签
		Elements elements = doc.select(".enterprise_blog .enterprise_l img");
		for (Element e : elements) {
			// 获得img标签的属性
			String url = e.attr("src");
			System.out.println(url);
		}
		System.out.println("--------企业博客的图片地址读取完毕--------");

		// 获得各企业博客的标题和地址
		Elements titleElements = doc.select(".enterprise_blog .item_title a");
		for (Element e : titleElements) {
			// 获得标签中的文本
			String title = e.text();
			System.out.println(title);

			// 获得a标签的超链接地址
			String url = e.attr("href");
			System.out.println(url);
		}
		System.out.println("--------企业博客的标题和地址读取完毕--------");
	}
}

运行结果:

CSDN - 专业开发者社区
https://profile.csdnimg.cn/2/D/6/1_devcloud
https://profile.csdnimg.cn/0/F/A/1_alitech2017
https://profile.csdnimg.cn/3/5/E/1_meituantech
https://profile.csdnimg.cn/C/0/8/1_sequoiadb_official
https://profile.csdnimg.cn/E/D/D/1_guduzhongliang
https://profile.csdnimg.cn/E/1/9/1_weixin_45449540
--------企业博客的图片地址读取完毕--------
华为云官方博客
https://blog.csdn.net/devcloud
阿里技术
https://blog.csdn.net/alitech2017
美团技术团队
https://blog.csdn.net/MeituanTech
巨杉数据库技术社区
https://blog.csdn.net/SequoiaDB_Official
千锋教育
https://blog.csdn.net/GUDUzhongliang
百度大脑
https://blog.csdn.net/weixin_45449540
--------企业博客的标题和地址读取完毕--------
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值