Java+selenium获取携程旅游页面分类目录爬虫

本文介绍如何使用Java和Selenium爬虫获取携程旅游页面的分类目录。内容包括页面分析难点,如目录的XPath获取,动态加载目录的定位,以及不同类型的目录结构。实现了817条数据的抓取,但代码性能有待优化。最后,总结了目录的类别分布,境内旅游、东南亚南亚、澳新南太中东非为排名前三的目录。
摘要由CSDN通过智能技术生成

分析携程旅游页面利用爬虫获取分类目录

  • 爬取的数据再页面上的展示
    在这里插入图片描述

  • 爬虫得到的数据展示,得到的数据一起是817条数据
    在这里插入图片描述

  • 页面分析难点剖析
    1.左边的主目录,F12得到xpath是没有难度的,右边目录可查看建立在鼠标在左边的目录上再移动到右边(截图进行分析,最笨拙的方式);
    2.当F12查看右边目录的元素时,鼠标离开右边的目录时,F12对应的Elements将消失(通过root向下查找元素进行定位);
    3.目录的格式多样(目录可分为三类,第一类:形如主题旅游-周边旅游-欧洲-美洲;第二类:形如境内旅游;第三类:形如香港 澳门 台湾-日本 蒙古-东南亚 南亚-澳新南太 中东非);

  • 具体实现代码如下(性能还需优化,使用的方式比较笨拙,若有更好的方式,欢迎沟通交流)

public class CTripService {
    private static final String CTRIPURL = "https://vacations.ctrip.com/";
    public void getTrip(){
        try{
            WebDriver webDriver = new ChromeDriver();
            // 利用chrome浏览器打开种子URL的页面
            webDriver.get(CTRIPURL);
            waitTime(2);
            // 使用Action实现触发
            Actions actions = new Actions(webDriver);
            // 左侧主目录,从root依次向下定位
            int firstLiSize = elementsSize(webDriver, By.xpath("//*[@id=\"root\"]/div/div/div[1]/div[2]/div[1]/ul/li"));
            for(int j=1;j <= firstLiSize;j++){
                WebElement webElement = webDriver.findElement(By.xpath("//*[@id=\"root\"]/div/div/div[1]/div[2]/div[1]/ul/li["+j+"]"));
                actions.moveToElement(webElement).perform();
                waitTime(2);
                // 右侧第一类目录
                if(isExist(webDriver,By.xpath("//*[@id=\"root\"]/div/div/div[1]/div[2]/div[1]/div/ul/li[1]/div/a[1]"))){
                    firstContents(webDriver, firstType(webDriver, "//*[@id=\"root\"]/div/div/div[1]/div[2]/div[1]/ul/li["+j+"]/div/h3/span"));
                }
                // 右侧第二类目录
             
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值