总结爬虫相关（以电商淘宝为例）

最新推荐文章于 2025-04-27 22:53:00 发布

zhiwei0701

最新推荐文章于 2025-04-27 22:53:00 发布

阅读量7.7k

点赞数 2

分类专栏：爬虫 java

本文链接：https://blog.csdn.net/tao_jiayun/article/details/94342078

版权

爬虫同时被 2 个专栏收录

4 篇文章

订阅专栏

java

4 篇文章

订阅专栏

本文分享了在电商网站淘宝上进行数据爬取的经验，探讨了PC端与H5页面的爬虫技术方案，包括应对反爬机制、使用代理池、puppteer模拟登录等策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

总结爬虫相关（以电商淘宝为例）

首先对于爬虫，我一直持有的想法就是你会写代码，你就会写爬虫（当然以我现在接触到的以及使用过的语言而言使用过的编程语言有python和java，此处就特指java和python）。掌握了一门语言的语法，会写几个案例，可以跑起来，一些简单的逻辑实现代码可以看得懂，那么我就觉得你可以实现一个简单的爬虫了。前公司一直有写业务的同学问我如何写爬虫，甚至有工作四年的同学来问，我一直很迷惑，本质上写爬虫是简单的，找到一个网页，无需使用任何第三方库，用httpconnection获取网页内容，解析出你想要的内容就行了。这是一段很容易实现的代码，而他们跑来问我我很惊讶，入门级别的爬虫对于有工作经验的人来说应该是信手拈来的。而爬虫困难的点在于，目标网站的各种封禁，爬虫和反爬虫之间的较量，甚至是大数据量级别的爬取，机器的负载，代理IP池的考虑等等。今天就来总结一下我写过爬虫的一些经验。（针对较难爬取的网站）以电商平台淘宝为例。

技术方案

PC端

首先淘宝的数据，每逢双十一这种大促，反爬技术必定升级一版。我在爬取淘宝数据的时候，发现PC端可以拿到一页44条商品数据，返回100页，共4400条数据。这段数据包含在一段JS中，转换解析一下即可。但是经过多次数据验证之后，发现淘宝返回了很多欺骗数据，即页面文本里面返回的数据与页面并不相关。并且淘宝列表页数据爬取速度过快会跳出验证码弹窗。后期淘宝反爬技术升级，爬取过多会跳出登录页面。我采用使用代理池的方式，遇到登录页面便换代理IP。
淘宝页面后期反爬再次升级，现在访问PC端淘宝页面，必须登录才能访问。后我们采用puppteer的模式进行模拟访问，但仍需登录后才能操作，所以我们须得使用淘宝账号才能进行数据爬取。并且为防账号被封禁的危险，也需使用代理IP。puppteer以js形式，爬虫Downloader端调用js，将所需参数传递过去，代理IP、页面爬取URL等。

h5页面

h5页面是在当时那个情况下，PC端采集的数据由于各种反爬封禁，数据采集量减少而作为补充的一个版本。我们调用h5页面爬取接口，那个接口每次最大只返回20条数据，只返回100页的数据，即比pc端少一半的数据。并且h5端返回的数据也与pc端有所不同，比如销量、库存等，h5与pc端是两个不同的数值。

代码示范

下面给出PC端采用puppteer的方式采集数据的代码示例，因为目前主要采用的这种方式，h5页面的方式由于封禁被摒弃了。项目采用webmagic框架，爬取过程需要实际淘宝账号，并且爬取过程中，账号也存在被封的风险，所以需要在页面返回时进行判断，通知是否需要进行更换账号或者更换代理IP操作。

public Page download(Request request, Task task) {
        String url = request.getUrl();
        LOGGER.info("Puppeteer download page url:{}", url);
        Page page = new Page();
        StringBuilder pageContentBuilder = new StringBuilder();
        StringBuilder errorPageContentBuilder = new StringBuilder();
        Process process = null;
        try {
            String command = "sh" + SPACE + puppeteerJs + SPACE + proxyIpPort + SPACE + url;
            LOGGER.info("Puppeteer start command:{} ", command);
            process = Runtime.getRuntime().exec(command);
            BufferedReader reader = new BufferedReader(new InputStreamReader(process.getInputStream()));
            while ((pageContent = reader.readLine()) != null) {
                pageContentBuilder.append(pageContent).append("\n");
            }
            BufferedReader errReader = new BufferedReader(new InputStreamReader(process.getErrorStream()));
            while ((errPageContent = errReader.readLine()) != null) {
                errorPageContentBuilder.append(errPageContent).append("\n");
            }
            if (StringUtils.isNotBlank(pageContentBuilder.toString())) {
                page.setUrl(new PlainText(request.getUrl()));
                page.setRequest(request);
                page.setRawText(pageContentBuilder.toString());
                page.setHtml(new Html(pageContentBuilder.toString(), request.getUrl()));
          
                if (pageContentBuilder.toString().contains(WRONG_CONTENT)) {
                    LOGGER.info("page resource is wrong content:{}", pageContentBuilder.toString());
                    page.setRawText("error page");
                    LOGGER.info("page resource is reset:{}", pageContentBuilder.toString());
                }
            }
            if (StringUtils.isNotBlank(errorPageContentBuilder.toString())) {
                LOGGER.info("errorPageContentBuilder is :{}", errorPageContentBuilder.toString());
                page.setSkip(true);
                page.setUrl(new PlainText(request.getUrl()));
                page.setRequest(request);
                page.setRawText("error page");
                LOGGER.info("page resource is reset:{}", "error page");
            }
            reader.close();
        } catch (Exception e) {
            e.printStackTrace();
            LOGGER.error("start process exception:{}", e.getMessage());
            page.setSkip(true);
            page.setUrl(new PlainText(request.getUrl()));
            page.setRequest(request);
        } finally {
            if (null != process) {
                process.destroy();
                LOGGER.info("process destroy...");
            }
        }
        return page;
    }