java爬虫案例分享

爬虫案例

作为一名java程序员,由于一个项目的缘故,2017年开始接触爬虫开发,先后抓取了京东、苏宁等电商网站,以及各大政府网站,现将自己开发的爬虫应用进行一下分享。

曾经抓取过的电商网站

电商:京东、苏宁、国美、卡地亚官网、汽车之家、钻石小鸟、天猫;
行业网站:中国黄金网、上海黄金交易所网站
政府网站

抓取的方式

自研的爬虫应用支持一般电商网站,经过xpath和正则的配置,实现数据的抓取。平台提供功能页面,可对抓取的网址、抓取中的变量以及要抓取的数据,进行配置。类似京东、国美、苏宁、卡地亚官网、汽车之家这些网站,可由前端人员进行配置,完成数据的抓取。
在这里插入图片描述

京东数据抓取

说起京东的数据,用户方提出的需求是抓取自营品类的数据,京东的安防方面做的一般,抓取难度较低。
京东的安防方面,主要是对单个IP访问的频率、总量进行的监控,采集如果量较大,使用代理IP的方式即可实现数据的抓取,如果采集的品类和数据量不大,不使用代理IP也完全可以支持数据采集。京东的数据我已经稳定采集2年多时间了,难度不大。京东数据采集结果样例:
在这里插入图片描述
采集的字段,均由页面分析人员进行配置完成,采集效率较高,基本不需要java和python的功底。

初次编写,改天继续。

钻石小鸟

下一期将给大家分享钻石小鸟的数据抓取,钻石小鸟是典型的数据加密网站。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值