Java网络爬虫——jsoup快速上手，爬取京东数据。同时解决‘京东安全’防爬问题

最新推荐文章于 2024-08-04 11:07:52 发布

程序员小肖

最新推荐文章于 2024-08-04 11:07:52 发布

阅读量2.5k

点赞数 20

文章标签： java 爬虫安全

本文链接：https://blog.csdn.net/qq_53058639/article/details/136281445

版权

文章目录

```
* 介绍
```
- jsoup使用
- ```
  * 1.解析url，获取前端代码
```
  - 2.解决京东安全界面跳转
  - 3.获取每一组的数据
  - 4.获取商品数据的具体信息
  - 4.最终代码

介绍

网络爬虫，就是在 浏览器上，代替人类爬取数据
，Java网络爬虫就是通过Java编写爬虫代码，代替人类从网络上爬取信息数据。程序员通过设定既定的规则，让程序代替我们从网络上获取海量我们需要的数据，比如图片，企业信息等。
爬虫的关键是对于网页信息的解析。

什么是jsoup：

jsoup 是一个用于处理现实世界HTML的Java库。它提供了一个非常方便的API，用于获取URL以及提取和操作数据，使用最好的HTML5
DOM方法和CSS选择器

jsoup使用

连接url，爬取网页代码（html代码）
解析网页代码，获取需要部分的数据

我们以解析京东网页，红框数据为例

在这里插入图片描述

1.解析url，获取前端代码

package com.xhf;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

import java.io.IOException;
import java.net.URL;

public class JsoupTest {
    static String url = "https://search.jd.com/Search?keyword=%E9%A4%90%E5%B7%BE%E7%BA%B8";

    public static void main(String[] args) throws IOException {
        // 解析网页, document就代表网页界面
        Document document = Jsoup.parse(new URL(url), 5000);
        // 打印获取前端代码
        System.out.println(document);
    }
}

2.解决京东安全界面跳转

直接通过url访问，经常遇到弹出京东安全的界面

<!doctype html>
<html lang="en"> 
<head> 
<meta charset="utf-8"> 
<meta http-equiv="X-UA-Compatible" content="IE=edge"> 
<meta name="viewport" content="width=device-width,initial-scale=1.0,user-scalable=no,maximum-scale=1.0,viewport-fit=cover"> 
<title>京东安全</title> 
<link href="https://cfe.m.jd.com/privatedomain/risk_handler/03101900/css/app.6f723501.css" rel="preload" as="style">
<link href="https://cfe.m.jd.com/privatedomain/risk_handler/03101900/js/app.js" rel="preload" as="script">
<link href="https://cfe.m.jd.com/privatedomain/risk_handler/03101900/js/chunk-vendors.js" rel="preload" as="script">
<link href="https://cfe.m.jd.com/privatedomain/risk_handler/03101900/css/app.6f723501.css" rel="stylesheet">
</head> 
<body> <!-- 不要删除这个div, class请勿修改--> 
<div class="ipaas-floor-app"></div> 
<script type="text/javascript" src="https://cfe.m.jd.com/privatedomain/risk_handler/03101900/js/chunk-vendors.js"></script>
<script type="text/javascript" src="https://cfe.m.jd.com/privatedomain/risk_handler/03101900/js/app.js"></script>                             
</body>
</html>

这算是对于爬取数据的一种反制措施。直接通过url请求， 服务器会认为客户端没有登录，因此会跳出京东安全的登陆界面，让他们登录
。以前可以通过添加header解决，现在得添加cookie了。获取cookie的方式如下

在这里插入图片描述

空白处右击鼠标
选择检查
右边栏中选择网络。如果没有，点击加号（更多工具），选择网络
找到Search大头的请求，如果没有，刷新重发请求
选中请求，查看标头
选择cookies，找到以thor为key的cookie

以下，就是修正后的代码

package com.xhf;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.URL;
import java.util.HashMap;
import java.util.Map;

public class JsoupTest {
    static String url = "https://search.jd.com/Search?keyword=%E9%A4%90%E5%B7%BE%E7%BA%B8";
    
    public static void main(String[] args) throws IOException {
        // 设置cookie
        Map<String, String> cookies = new HashMap<String, String>();
        cookies.put("thor", "03F9B0325C5DCD2FCCDB435C227FD474D0B53C9143EB5DDA60599BDB9AE7A415B7CFEB4418F01DDEB8B8B9DD502D366A4E0BA2D84A0FE6CB6658061484CA95D230C7B76A36E31F4B329D2EFAC7DCD1E526F3C416CC50617276FED57FAF618892895784CB6446F6B8468A807290C12C3BA1C99DD0C0939C48C4E69681CA900EA9");
        // 解析网页, document就代表网页界面
        Document document = Jsoup.connect(url).cookies(cookies).get();
        System.out.println(document);
    }
}

<!doctype html>
<html>
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8">
<meta http-equiv="X-UA-Compatible" content="IE=edge">
<meta name="renderer" content="webkit">
<meta http-equiv="Cache-Control" content="max-age=300">
<link rel="dns-prefetch" href="//search.jd.com">
<link rel="dns-prefetch" href="//item.jd.com">
<link rel="dns-prefetch" href="//list.jd.com">
<link rel="dns-prefetch" href="//p.3.cn">
<link rel="dns-prefetch" href="//misc.360buyimg.com">
<link rel="dns-prefetch" href="//nfa.jd.com">
<link rel="dns-prefetch" href="//d.jd.com">
<link rel="dns-prefetch" href="//img12.360buyimg.com">
<link rel="dns-prefetch" href="//img13.360buyimg.com">
<link rel="dns-prefetch" href="//static.360buyimg.com">
<link rel="dns-prefetch" href="//csc.jd.com">
<link rel="dns-prefetch" href="//mercury.jd.com">
<link rel="dns-prefetch" href="//x.jd.com">
<link rel="dns-prefetch" href="//wl.jd.com">
<title>餐巾纸 - 商品搜索 - 京东</title>
<meta name="Keywords" content="餐巾纸，京东餐巾纸">
<meta name="description"

content=“在京东找到了餐巾纸305051件餐巾纸的类似商品，其中包含了餐巾纸价格、餐巾纸评论、餐巾纸导购、餐巾纸图片等相关信息”>

jsoup中的document可以当作js中的document使用，解析网站内容就是在js中操作document，获取信息

3.获取每一组的数据

在这里插入图片描述

我们发现，所有的商品数据都是通过ul标签进行渲染

在这里插入图片描述

每单个数据，则是用li标签渲染

所以，如果我们要获取每个商品数据，我们可以先 通过class，获取ul元素 ，然后 选择出ul元素内包含的所有li元素

        // 通过class获取ul标签
        Elements ul = document.getElementsByClass("gl-warp clearfix");
        // 获取ul标签下的所有li标签
        Elements liList = ul.select("li");
        for (Element element : liList) {
            System.out.println("------------------");
            System.out.println(element);
            System.out.println();
        }

------------------
<li data-sku="1297484" data-spu="1297484" ware-type="10" bybt="0"
class=“gl-item”>

￥78.90

维达（Vinda）抽纸超韧150抽*24包S码湿水不易破卫生纸纸巾餐巾纸
整箱【纸选维达,实力出发】爆品低至6.6折,抢新品低价试用
【神券疯狂领】满199减40神券【会员福利送】下单满1元赢手机好礼,直达开抢！

维达京东自营官方旗舰店

自营 2件9折

对比关注加入购物车
------------------
<li data-sku="3092062" data-spu="3092062" ware-type="10" bybt="0"
class=“gl-item”>

￥54.90

洁柔抽纸活力阳光橙3层120抽面巾纸*24包母婴可用全家适用 【洁柔新品来袭】洁柔爱马仕设计师联名款重磅上线！爆款好物空前钜惠，爆品低至6.6折！【洁柔大会员】抢神券,会员臻享八大特权go

洁柔京东自营官方旗舰店

自营

对比关注加入购物车

…其余数据不做展示

4.获取商品数据的具体信息

通过遍历上述代码中出现的liList，可以获取到每一个li元素。每个元素都代表了商品的一组信息。具体如下所示。

在这里插入图片描述

如果我们要获取更为具体的信息，比如价格，图片，介绍等信息。我们就需要对li标签所封装的对象进行数据的截取。

在这里插入图片描述

我们可以用getElementsByTag("img")来获取带有img标签的对象，然后获取其data-lazy-img属性的数据

String pict = element.getElementsByTag("img").first().attr("data-lazy-img");

价格

我们可以通过getElementsByClass("p-price")的方式获取对象，然后获取其中内容

    String price = element.getElementsByClass("p-price").first().text();

shop名称，类似价格获取方式

4.最终代码

package com.xhf;

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import java.io.IOException;
import java.net.URL;
import java.util.HashMap;
import java.util.Map;

/**
 * 解析京东界面, 爬取商品数据
 */
public class JsoupTest {
    static String url = "https://search.jd.com/Search?keyword=%E9%A4%90%E5%B7%BE%E7%BA%B8";

    public static void main(String[] args) throws IOException {
        // 设置cookie
        Map<String, String> cookies = new HashMap<String, String>();
        cookies.put("thor", "03F9B0325C5DCD2FCCDB435C227FD474D0B53C9143EB5DDA60599BDB9AE7A415B7CFEB4418F01DDEB8B8B9DD502D366A4E0BA2D84A0FE6CB6658061484CA95D230C7B76A36E31F4B329D2EFAC7DCD1E526F3C416CC50617276FED57FAF618892895784CB6446F6B8468A807290C12C3BA1C99DD0C0939C48C4E69681CA900EA9");
        // 解析网页, document就代表网页界面
        Document document = Jsoup.connect(url).cookies(cookies).get();

        // 通过class获取ul标签
        Elements ul = document.getElementsByClass("gl-warp clearfix");
        // 获取ul标签下的所有li标签
        Elements liList = ul.select("li");
        for (Element element : liList) {
            System.out.println("------------------");
            String pict = element.getElementsByTag("img").first().attr("data-lazy-img");
            String price = element.getElementsByClass("p-price").first().text();
            String shopName = element.getElementsByClass("p-shop").first().text();
            System.out.println(pict);
            System.out.println(price);
            System.out.println(shopName);
        }
    }
}

接下来我将给各位同学划分一张学习计划表！

学习计划

那么问题又来了，作为萌新小白，我应该先学什么，再学什么？
既然你都问的这么直白了，我就告诉你，零基础应该从什么开始学起：

阶段一：初级网络安全工程师

接下来我将给大家安排一个为期1个月的网络安全初级计划，当你学完后，你基本可以从事一份网络安全相关的工作，比如渗透测试、Web渗透、安全服务、安全分析等岗位；其中，如果你等保模块学的好，还可以从事等保工程师。

综合薪资区间6k~15k

1、网络安全理论知识（2天）
①了解行业相关背景，前景，确定发展方向。
②学习网络安全相关法律法规。
③网络安全运营的概念。
④等保简介、等保规定、流程和规范。（非常重要）

2、渗透测试基础（1周）
①渗透测试的流程、分类、标准
②信息收集技术：主动/被动信息搜集、Nmap工具、Google Hacking
③漏洞扫描、漏洞利用、原理，利用方法、工具（MSF）、绕过IDS和反病毒侦察
④主机攻防演练：MS17-010、MS08-067、MS10-046、MS12-20等

3、操作系统基础（1周）
①Windows系统常见功能和命令
②Kali Linux系统常见功能和命令
③操作系统安全（系统入侵排查/系统加固基础）

4、计算机网络基础（1周）
①计算机网络基础、协议和架构
②网络通信原理、OSI模型、数据转发流程
③常见协议解析（HTTP、TCP/IP、ARP等）
④网络攻击技术与网络安全防御技术
⑤Web漏洞原理与防御：主动/被动攻击、DDOS攻击、CVE漏洞复现

5、数据库基础操作（2天）
①数据库基础
②SQL语言基础
③数据库安全加固

6、Web渗透（1周）
①HTML、CSS和JavaScript简介
②OWASP Top10
③Web漏洞扫描工具
④Web渗透工具：Nmap、BurpSuite、SQLMap、其他（菜刀、漏扫等）

那么，到此为止，已经耗时1个月左右。你已经成功成为了一名“脚本小子”。那么你还想接着往下探索吗？

阶段二：中级or高级网络安全工程师（看自己能力）

综合薪资区间15k~30k

7、脚本编程学习（4周）
在网络安全领域。是否具备编程能力是“脚本小子”和真正网络安全工程师的本质区别。在实际的渗透测试过程中，面对复杂多变的网络环境，当常用工具不能满足实际需求的时候，往往需要对现有工具进行扩展，或者编写符合我们要求的工具、自动化脚本，这个时候就需要具备一定的编程能力。在分秒必争的CTF竞赛中，想要高效地使用自制的脚本工具来实现各种目的，更是需要拥有编程能力。

零基础入门的同学，我建议选择脚本语言Python/PHP/Go/Java中的一种，对常用库进行编程学习
搭建开发环境和选择IDE，PHP环境推荐Wamp和XAMPP，IDE强烈推荐Sublime；

Python编程学习，学习内容包含：语法、正则、文件、网络、多线程等常用库，推荐《Python核心编程》，没必要看完

用Python编写漏洞的exp,然后写一个简单的网络爬虫

PHP基本语法学习并书写一个简单的博客系统

熟悉MVC架构，并试着学习一个PHP框架或者Python框架 (可选)

了解Bootstrap的布局或者CSS。

阶段三：顶级网络安全工程师

如果你对网络安全入门感兴趣，那么你需要的话可以点击这里👉网络安全重磅福利：入门&进阶全套282G学习资源包免费分享！

学习资料分享

当然，只给予计划不给予学习资料的行为无异于耍流氓，这里给大家整理了一份【282G】的网络安全工程师从入门到精通的学习资料包，可点击下方二维码链接领取哦。

## 最后
从时代发展的角度看，网络安全的知识是学不完的，而且以后要学的会更多，同学们要摆正心态，既然选择入门网络安全，就不能仅仅只是入门程度而已，能力越强机会才越多。

因为入门学习阶段知识点比较杂，所以我讲得比较笼统，大家如果有不懂的地方可以找我咨询，我保证知无不言言无不尽，需要相关资料也可以找我要，我的网盘里一大堆资料都在吃灰呢。

干货主要有：

①1000+CTF历届题库（主流和经典的应该都有了）

②CTF技术文档（最全中文版）

③项目源码（四五十个有趣且经典的练手项目及源码）

④ CTF大赛、web安全、渗透测试方面的视频（适合小白学习）

⑤ 网络安全学习路线图（告别不入流的学习）

⑥ CTF/渗透测试工具镜像文件大全

⑦ 2023密码学/隐身术/PWN技术手册大全

如果你对网络安全入门感兴趣，那么你需要的话可以点击这里👉网络安全重磅福利：入门&进阶全套282G学习资源包免费分享！

扫码领取

程序员小肖

关注

20
点赞
踩
22

收藏

觉得还不错? 一键收藏
0
评论
Java网络爬虫——jsoup快速上手，爬取京东数据。同时解决‘京东安全’防爬问题

网络爬虫，就是在浏览器上，代替人类爬取数据，Java网络爬虫就是通过Java编写爬虫代码，代替人类从网络上爬取信息数据。程序员通过设定既定的规则，让程序代替我们从网络上获取海量我们需要的数据，比如图片，企业信息等。爬虫的关键是对于网页信息的解析。jsoup是一个用于处理现实世界HTML的Java库。它提供了一个非常方便的API，用于获取URL以及提取和操作数据，使用最好的HTML5DOM方法和CSS选择器。
复制链接

扫一扫