JAVA爬数据也是杠杠的,爬下杜大哥

上篇分析的网站是国家级,没有真正编写代码爬取对应的数据,今天以“1药网”为例来爬一爬药品数据

https://www.111.com.cn/

1、 分析网站
进入网站首页

在这里插入图片描述
2、 点击一下“所有商品分类”,对应的网站地址如下

https://www.111.com.cn/categories/ 

在这里插入图片描述
先爬取所有的“分类”,然后在根据“分类”获取分类下的所有商品。
发起Get请求的方法

public static String sendGet(String url){
    String result = null;
    //Creates CloseableHttpClient instance with default configuration.
    CloseableHttpClient httpCilent = HttpClients.createDefault();
    HttpGet httpGet = new HttpGet(url);
    try {
        CloseableHttpResponse response = httpCilent.execute(httpGet);
        String result = EntityUtils.toString(response.getEntity()) ;
        System.out.println(result);
    } catch (IOException e) {
        e.printStackTrace();
    }finally {
        try {
            httpCilent.close();//释放资源
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
    return result;
}

获取“药品分类”的HTML页面

public static  String getCategories(){
    String html =  HttpUtils.sendGet("https://www.111.com.cn/categories/");
    return html;
}

3、 分析爬取到的药品分类的HTML,认真看图
在这里插入图片描述
把界面上所有的分类链接解析出来
4、 解析所有分类链接

public static List<String> processCategoriesHtml(String html){
    List<String> links = new ArrayList<String>();
    if(html!=null && !"".equals(html.trim())){
        try {
            Parser parser = new Parser(html);
            //定义一个Filter,过滤主题a
            NodeFilter afilter = new NodeClassFilter(LinkTag.class);//A过滤器
            NodeList nodeList =  parser.extractAllNodesThatMatch(afilter);
            for(int i=0; i<nodeList.size(); i++){
                Node aNode =  nodeList.elementAt(i);
                LinkTag aLinkTag =  (LinkTag)aNode;
                if(aLinkTag.getLink()!=null && aLinkTag.getLink().contains("categories")){
                    links.add(aLinkTag.getLink());
                    System.out.println(aLinkTag.getLink());
                }
            }
        }catch (Exception e){
            e.printStackTrace();
        }

    }
    return links;
}

5、 下面来看看“杜蕾斯”的兄弟没到底有多少
在第五步爬出来的连接有如下

//www.111.com.cn/categories/965327-j1

一个连接,同样先爬取HTML页面

public static String getDLS_Html(){
    String html =  HttpUtils.sendGet("https://www.111.com.cn/categories/965327-j1");
    return html;
}

分析获取到HTML
在这里插入图片描述
每个“杜大哥”的连接都有product和class=“product_pic pro_img”。用如下代码即可获取所有的“杜蕾斯”兄弟的商品链接

public static List<String> processDLSHtml(String html){
    List<String> links = new ArrayList<String>();
    if(html!=null && !"".equals(html.trim())){
        try {
            Parser parser = new Parser(html);
            //定义一个Filter,过滤主题em
            NodeFilter afilter = new NodeClassFilter(LinkTag.class);//A过滤器
            NodeList nodeList =  parser.extractAllNodesThatMatch(afilter);
            for(int i=0; i<nodeList.size(); i++){
                Node aNode =  nodeList.elementAt(i);
                LinkTag aLinkTag =  (LinkTag)aNode;
                if(aLinkTag.getLink()!=null && aLinkTag.getLink().contains("product")){
                    links.add(aLinkTag.getLink());
                    System.out.println(aLinkTag.getLink());
                }
            }
        }catch (Exception e){
            e.printStackTrace();
        }

    }
    return links;
}

7、 接下来就可以获取所有的商品规格了,哪款卖的多都可以分析出来哦
同样先获取页面详情

public static String getDLSDetail_Html(String url){
    String html =  HttpUtils.sendGet("https:"+url);
    return html;
}

然后分析HTML可以知道只要分析下图这个div的信息就可以获取“杜大哥”的所有信息了。这个留给大家分析分析下看看怎获取。
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

BUG弄潮儿

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值