总结爬虫相关(以电商淘宝为例)

总结爬虫相关(以电商淘宝为例)

首先对于爬虫,我一直持有的想法就是你会写代码,你就会写爬虫(当然以我现在接触到的以及使用过的语言而言使用过的编程语言有python和java,此处就特指java和python)。掌握了一门语言的语法,会写几个案例,可以跑起来,一些简单的逻辑实现代码可以看得懂,那么我就觉得你可以实现一个简单的爬虫了。前公司一直有写业务的同学问我如何写爬虫,甚至有工作四年的同学来问,我一直很迷惑,本质上写爬虫是简单的,找到一个网页,无需使用任何第三方库,用httpconnection获取网页内容,解析出你想要的内容就行了。这是一段很容易实现的代码,而他们跑来问我我很惊讶,入门级别的爬虫对于有工作经验的人来说应该是信手拈来的。而爬虫困难的点在于,目标网站的各种封禁,爬虫和反爬虫之间的较量,甚至是大数据量级别的爬取,机器的负载,代理IP池的考虑等等。今天就来总结一下我写过爬虫的一些经验。(针对较难爬取的网站)以电商平台淘宝为例。

技术方案
PC端
  • 首先淘宝的数据,每逢双十一这种大促,反爬技术必定升级一版。我在爬取淘宝数据的时候,发现PC端可以拿到一页44条商品数据,返回100页,共4400条数据。这段数据包含在一段JS中,转换解析一下即可。但是经过多次数据验证之后,发现淘宝返回了很多欺骗数据,即页面文本里面返回的数据与页面并不相关。并且淘宝列表页数据爬取速度过快会跳出验证码弹窗。后期淘宝反爬技术升级,爬取过多会跳出登录页面。我采用使用代理池的方式,遇到登录页面便换代理IP。
  • 淘宝页面后期反爬再次升级,现在访问PC端淘宝页面,必须登录才能访问。后我们采用puppteer的模式进行模拟访问,但仍需登录后才能操作,所以我们须得使用淘宝账号才能进行数据爬取。并且为防账号被封禁的危险,也需使用代理IP。puppteer以js形式,爬虫Downloader端调用js,将所需参数传递过去,代理IP、页面爬取URL等。
h5页面
  • h5页面是在当时那个情况下,PC端采集的数据由于各种反爬封禁,数据采集量减少而作为补充的一个版本。我们调用h5页面爬取接口,那个接口每次最大只返回20条数据,只返回100页的数据,即比pc端少一半的数据。并且h5端返回的数据也与pc端有所不同,比如销量、库存等,h5与pc端是两个不同的数值。
代码示范
  • 下面给出PC端采用puppteer的方式采集数据的代码示例,因为目前主要采用的这种方式,h5页面的方式由于封禁被摒弃了。项目采用webmagic框架,爬取过程需要实际淘宝账号,并且爬取过程中,账号也存在被封的风险,所以需要在页面返回时进行判断,通知是否需要进行更换账号或者更换代理IP操作。

    public Page download(Request request, Task task) {
            String url = request.getUrl();
            LOGGER.info("Puppeteer download page url:{}", url);
            Page page = new Page();
            StringBuilder pageContentBuilder = new StringBuilder();
            StringBuilder errorPageContentBuilder = new StringBuilder();
            Process process = null;
            try {
                String command = "sh" + SPACE + puppeteerJs + SPACE + proxyIpPort + SPACE + url;
                LOGGER.info("Puppeteer start command:{} ", command);
                process = Runtime.getRuntime().exec(command);
                BufferedReader reader = new BufferedReader(new InputStreamReader(process.getInputStream()));
                while ((pageContent = reader.readLine()) != null) {
                    pageContentBuilder.append(pageContent).append("\n");
                }
                BufferedReader errReader = new BufferedReader(new InputStreamReader(process.getErrorStream()));
                while ((errPageContent = errReader.readLine()) != null) {
                    errorPageContentBuilder.append(errPageContent).append("\n");
                }
                if (StringUtils.isNotBlank(pageContentBuilder.toString())) {
                    page.setUrl(new PlainText(request.getUrl()));
                    page.setRequest(request);
                    page.setRawText(pageContentBuilder.toString());
                    page.setHtml(new Html(pageContentBuilder.toString(), request.getUrl()));
              
                    if (pageContentBuilder.toString().contains(WRONG_CONTENT)) {
                        LOGGER.info("page resource is wrong content:{}", pageContentBuilder.toString());
                        page.setRawText("error page");
                        LOGGER.info("page resource is reset:{}", pageContentBuilder.toString());
                    }
                }
                if (StringUtils.isNotBlank(errorPageContentBuilder.toString())) {
                    LOGGER.info("errorPageContentBuilder is :{}", errorPageContentBuilder.toString());
                    page.setSkip(true);
                    page.setUrl(new PlainText(request.getUrl()));
                    page.setRequest(request);
                    page.setRawText("error page");
                    LOGGER.info("page resource is reset:{}", "error page");
                }
                reader.close();
            } catch (Exception e) {
                e.printStackTrace();
                LOGGER.error("start process exception:{}", e.getMessage());
                page.setSkip(true);
                page.setUrl(new PlainText(request.getUrl()));
                page.setRequest(request);
            } finally {
                if (null != process) {
                    process.destroy();
                    LOGGER.info("process destroy...");
                }
            }
            return page;
        }
    
  • 2
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值