爬取网页文字内容

最新推荐文章于 2024-07-21 21:39:32 发布

起風了

最新推荐文章于 2024-07-21 21:39:32 发布

阅读量1.9k

点赞数

分类专栏： java 文章标签： java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_36460397/article/details/109800757

版权

本文介绍了如何利用Java进行网页内容爬取，重点讲解了controller部分以及文章爬取工具类SpiderUtil的实现。

摘要由CSDN通过智能技术生成

controller

@ApiOperation(value = "获取网页文字内容")
	@SysLog("获取网页文字内容")
	@GetMapping("/getUrlContent")
	public Res<String> getUrlContent(String url) throws IOException {
        Resp<JSONObject> resp = SpiderUtil.getActicle(url);
        if (resp.isSuccess()) {
        	List<Map<String, Object>> tagsList=(List<Map<String, Object>>) resp.getBody().get("tags");
        	List<Map<String, Object>> returnList=Lists.newArrayList();
        	for (Map<String, Object> map : tagsList) {
				if (map.get("name").equals("span") && map.get("text").equals("收录于话题")) {
					break;
				}
				returnList.add(map);
			}
        	resp.getBody().put("tags", returnList);
            System.out.println(resp.getBody());
            return Res.ok(resp.getBody().toString());
        } else {
            System.out.println(resp.getMsg());
            return Res.failed(resp.getMsg());
        }
	}

文章爬取工具类 SpiderUtil

package com.clina.matron.util;
 
import java.util.HashMap;
import java.util.LinkedHashMap;
import java.util.Map;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Attribute;
import org.jsoup.nodes.Attributes;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import

最低0.47元/天解锁文章

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

起風了 CSDN认证博客专家 CSDN认证企业博客

码龄8年

50: 原创

7万+: 周排名

199万+: 总排名

10万+: 访问

: 等级

1105: 积分

38: 粉丝

53: 获赞

6: 评论

153: 收藏

私信

关注

热门文章

分类专栏

信息系统项目管理师
微信 4篇
sql 1篇
信管 1篇
分页 1篇
java 31篇
数据库 4篇
前端 6篇
软件设计师 11篇
漫漫考研路 1篇
C 1篇

最新评论

原码，反码，补码和移码
做而论道_CS: 码长八位时，各码的范围如下。原码：－127 ~ +127。反码：－127 ~ +127。补码：－128 ~ +127。注意：－128，没有原码反码，只有补码。没有原码，拿什么取反？没有反码，拿什么加一？其实，补码的原理，与 “取反加一” 毫无关系。补码的来源，可以用十进制来说明。假定，只使用两位数：0~99。此时，－1 就可以用 +99 代替。如：24－1 = 23 　　24 + 99 = (一百) 23 忽略进位，只取两位，这两种算法，功能相同。三角函数中，也有：－90° 与＋270° 等效。【限定位数（或范围）后，数值变化就有了周期性。】　正数（补码），就可以代表负数；　加法，就可以代替减法。　因此，学会了加法运算，就可走遍天下。计算机，有 8 位机、16 位机。每次运算，也就只用到 8、16 位二进制数。而且，计算机中，只有加法器。那么，45－45 = 0，八位机将如下计算：　　0010 1101 + xxxx xxxx = 0000 0000。其中的：xxxx xxxx，就是【－45 的八位补码】。这个补码，到底是什么？你自己也能推导出来。先移项：xxxx xxxx = 0000 0000－0010 1101，可得出：xxxx xxxx = (借位 1) 1101 0011，取八位：xxxx xxxx = 1101 0011。至此，就求出了 [－45]补 = 1101 0011。求负数的补码，就是这么简单！－－－－－－－－－－－－－－－－－实际上，任意负数（－X）的补码，都是：0 － X。你用二进制简单算一下，立刻就能得到结果。（－128 的 8 位补码，也就是这样求出来的。）同理，任意正数（＋X）的补码，也都是：0 ＋ X。 0 ＋ X，不就是 X 吗？即，正数的补码，就是 X 本身！－－－－－－－－－－－－－－－－－在现代计算机中，只有加法器，只能使用补码。所以，在计算机中，只有补码，并没有原码和反码。不存在的东西，学它干嘛呢？计算机老师，指望这个混饭吃呗。顺便，再抓几个不及格的，抖一下威风！真值机器数符号位原码反码取反加一符号位不变模同余 ... 专家写的这些，明显就是【拿个鞋拔子当做玉如意】。假货，不仅仅在古董行业才有啊！
爬取网页文字内容
码到成龚: 有效果截图么？
宝塔域名https配置
生花脱颖: 可以把代码里面的域名和你自己的IP地址打个马赛克
foreach跳出循环
ctotalk: 感谢分享,学习了
2020-10-09面试题学习
不正经的kimol君: 大佬就是大佬，写得很棒呀

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。