java打开网址拦截图片_谷歌插件抓取一切网站内容以及拦截图片

最新推荐文章于 2024-05-03 11:26:45 发布

XU美伢

最新推荐文章于 2024-05-03 11:26:45 发布

阅读量298

点赞数

文章标签： java打开网址拦截图片

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_35811662/article/details/114745668

版权

平时普通的爬虫：在代码里面发一个请求，然后从流中获取网页内容，解析网页内容得到相关信息。这个方式的优点是简单快捷，缺点是很容易被拦截，失败率高。

另辟蹊径的方式就是使用谷歌插件获取页面所有内容，再解析，得到所要的信息。

插件名称：chromeCrawl

插件添加地址：点我

如果上不了谷歌应用网站，可以使用github的手动安装教程：点我

插件简单使用

安装后在浏览器右上角看到安装后的图标：共有三个功能

这三个复选框的解释：

打开爬取页面功能：勾选该复选框，才会向后台接口发送页面内容，同时接收数据接口出现

自动关闭页面：勾选该复选框，爬取页面完成后，页面自动关闭。

不显示多媒体资源：勾选该复选框，图片，视频，字体等资源将不加载，可以提高网页加载速度

备注：

接收数据接口：接收页面数据的接口，需要自己定义，默认http://localhost:8080/content,与打开爬取页面功能联动

当打开爬取功能时，我们想要拿到页面内容，可以这样设置：

如果是java的话，后台这样接收就可以了：

package com.molikam.shop.controller;

import java.util.concurrent.atomic.AtomicInteger;

import org.springframework.web.bind.annotation.RequestMapping;

import org.springframework.web.bind.annotation.RequestMethod;

import org.springframework.web.bind.annotation.RestController;

@RestController

public class CrawlerController {

AtomicInteger count = new AtomicInteger(0);

@RequestMapping(value="/content",method={RequestMethod.POST})

public void getContent(String content){

System.out.println(count.incrementAndGet());

System.out.println(content);

}

}

想要看插件具体代码或者自己添加更多需求，移步github下载：点我

下载后在background.js和content_script.js这两个文件添加内容就行了，具体如何编写谷歌插件，百度一下都有的。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
java打开网址拦截图片_谷歌插件抓取一切网站内容以及拦截图片

平时普通的爬虫：在代码里面发一个请求，然后从流中获取网页内容，解析网页内容得到相关信息。这个方式的优点是简单快捷，缺点是很容易被拦截，失败率高。另辟蹊径的方式就是使用谷歌插件获取页面所有内容，再解析，得到所要的信息。插件名称：chromeCrawl插件添加地址：点我如果上不了谷歌应用网站，可以使用github的手动安装教程：点我插件简单使用安装后在浏览器右上角看到安装后的图标：共有三个功能这三个复...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。