使用Jsoup工具的网络爬虫案例----从https://www.csdn.net/网站中获得与“企业博客”相关的数据
Jsoup工具能极大的简化我们写爬虫程序的代码量,是一个很方便的工具。
Jsoup的下载和导入流程:
1.下载Jsoup
官网:https://jsoup.org/
2.给项目/模块引入第三方库
3.开始编写代码
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
public class PaChongJsoup {
public static void main(String[] args) throws Exception {
// 创建Jsoup文档对象
Document doc = Jsoup.connect("https://www.csdn.net").get();
// 输出该文档标题
System.out.println(doc.title());
// 通过css选择器来获得获得企业博客中企业的log图片标签
Elements elements = doc.select(".enterprise_blog .enterprise_l img");
for (Element e : elements) {
// 获得img标签的属性
String url = e.attr("src");
System.out.println(url);
}
System.out.println("--------企业博客的图片地址读取完毕--------");
// 获得各企业博客的标题和地址
Elements titleElements = doc.select(".enterprise_blog .item_title a");
for (Element e : titleElements) {
// 获得标签中的文本
String title = e.text();
System.out.println(title);
// 获得a标签的超链接地址
String url = e.attr("href");
System.out.println(url);
}
System.out.println("--------企业博客的标题和地址读取完毕--------");
}
}
运行结果:
CSDN - 专业开发者社区
https://profile.csdnimg.cn/2/D/6/1_devcloud
https://profile.csdnimg.cn/0/F/A/1_alitech2017
https://profile.csdnimg.cn/3/5/E/1_meituantech
https://profile.csdnimg.cn/C/0/8/1_sequoiadb_official
https://profile.csdnimg.cn/E/D/D/1_guduzhongliang
https://profile.csdnimg.cn/E/1/9/1_weixin_45449540
--------企业博客的图片地址读取完毕--------
华为云官方博客
https://blog.csdn.net/devcloud
阿里技术
https://blog.csdn.net/alitech2017
美团技术团队
https://blog.csdn.net/MeituanTech
巨杉数据库技术社区
https://blog.csdn.net/SequoiaDB_Official
千锋教育
https://blog.csdn.net/GUDUzhongliang
百度大脑
https://blog.csdn.net/weixin_45449540
--------企业博客的标题和地址读取完毕--------