爬取网页文字内容

本文介绍了如何利用Java进行网页内容爬取,重点讲解了controller部分以及文章爬取工具类SpiderUtil的实现。
摘要由CSDN通过智能技术生成

controller

@ApiOperation(value = "获取网页文字内容")
	@SysLog("获取网页文字内容")
	@GetMapping("/getUrlContent")
	public Res<String> getUrlContent(String url) throws IOException {
        Resp<JSONObject> resp = SpiderUtil.getActicle(url);
        if (resp.isSuccess()) {
        	List<Map<String, Object>> tagsList=(List<Map<String, Object>>) resp.getBody().get("tags");
        	List<Map<String, Object>> returnList=Lists.newArrayList();
        	for (Map<String, Object> map : tagsList) {
				if (map.get("name").equals("span") && map.get("text").equals("收录于话题")) {
					break;
				}
				returnList.add(map);
			}
        	resp.getBody().put("tags", returnList);
            System.out.println(resp.getBody());
            return Res.ok(resp.getBody().toString());
        } else {
            System.out.println(resp.getMsg());
            return Res.failed(resp.getMsg());
        }
	}

文章爬取工具类 SpiderUtil

package com.clina.matron.util;
 
import java.util.HashMap;
import java.util.LinkedHashMap;
import java.util.Map;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Attribute;
import org.jsoup.nodes.Attributes;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import 
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值