java打开网址拦截图片_谷歌插件抓取一切网站内容以及拦截图片

平时普通的爬虫:在代码里面发一个请求,然后从流中获取网页内容,解析网页内容得到相关信息。这个方式的优点是简单快捷,缺点是很容易被拦截,失败率高。

另辟蹊径的方式就是使用谷歌插件获取页面所有内容,再解析,得到所要的信息。

插件名称:chromeCrawl

插件添加地址:点我

16cce0ba1effa545bff2063cd79de8b3.png

如果上不了谷歌应用网站,可以使用github的手动安装教程:点我

插件简单使用

安装后在浏览器右上角看到安装后的图标:共有三个功能

53072f6c262660f8cc1420411bd67d71.png

这三个复选框的解释:

打开爬取页面功能:勾选该复选框,才会向后台接口发送页面内容,同时接收数据接口出现

自动关闭页面:勾选该复选框,爬取页面完成后,页面自动关闭。

不显示多媒体资源:勾选该复选框,图片,视频,字体等资源将不加载,可以提高网页加载速度

备注:

接收数据接口:接收页面数据的接口,需要自己定义,默认http://localhost:8080/content,与 打开爬取页面功能 联动

当打开爬取功能时,我们想要拿到页面内容,可以这样设置:

031bdc9792e9b3b5b1e47924c9960f8f.png

如果是java的话,后台这样接收就可以了:

package com.molikam.shop.controller;

import java.util.concurrent.atomic.AtomicInteger;

import org.springframework.web.bind.annotation.RequestMapping;

import org.springframework.web.bind.annotation.RequestMethod;

import org.springframework.web.bind.annotation.RestController;

@RestController

public class CrawlerController {

AtomicInteger count = new AtomicInteger(0);

@RequestMapping(value="/content",method={RequestMethod.POST})

public void getContent(String content){

System.out.println(count.incrementAndGet());

System.out.println(content);

}

}

想要看插件具体代码或者自己添加更多需求,移步github下载:点我

下载后在background.js和content_script.js这两个文件添加内容就行了,具体如何编写谷歌插件,百度一下都有的。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值