爬虫实现网页资源的简单抓取

最新推荐文章于 2024-06-26 16:16:36 发布

不朽之光

最新推荐文章于 2024-06-26 16:16:36 发布

阅读量1.7k

点赞数

本文链接：https://blog.csdn.net/buxiuzhiguang/article/details/86082903

版权

该篇博客展示了如何利用Java的Jsoup库抓取网页上的特定内容。通过连接到指定URL并设置User-Agent，博客作者获取了HTML页面，然后选择并遍历了ul.double-li>li元素，提取每个li中的a标签的title和href属性，将结果保存到D:\test\source.txt文件中。博客提供了详细的代码实现，实现了简单的网页资源抓取。

摘要由CSDN通过智能技术生成

package com.zyzx.jsoup;

import java.io.File;
import java.io.FileWriter;
import java.io.IOException;
import java.io.PrintWriter;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

public class MySpider01 {
   public static void main(String[] args) throws IOException {
       Document doc;
       String detailUrl = null;
       String shopName = null;
       doc = Jsoup.connect("http://www.runoob.com/w3c/w3c-html.html").userAgent(
               "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36")
               .timeout(10000).get();
       Elements listElements = doc.select("ul.double-li> li");
       for (Element element : listElements) {
           shopName

最低0.47元/天解锁文章

不朽之光

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
爬虫实现网页资源的简单抓取

package com.zyzx.jsoup;import java.io.File;import java.io.FileWriter;import java.io.IOException;import java.io.PrintWriter;import org.jsoup.Jsoup;import org.jsoup.nodes.Document;import org.js...
复制链接

扫一扫