Selenium安装以及案例演示【Java爬虫】

目录

一、Selenium简介

安装的详细过程可以参考这篇文章!!!

二、Selenium组成

三、Selenium特点

四、案例演示

4.1 java爬虫入门

4.2 相关API

以上就是今天的分享!!!


一、Selenium简介

Selenium是一个用于Web应用程序自动化测试工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。支持的浏览器包括IE(7, 8, 9, 10, 11),Mozilla Firefox,Safari,Google Chrome,Opera等。适用于自动化测试,js动态爬虫(破解反爬虫)等领域。

安装的详细过程可以参考这篇文章!!!

Selenium 的安装和基本使用_小小明-代码实体的博客-CSDN博客

二、Selenium组成

1)Selenium IDE:嵌入到Firefox浏览器中的一个插件,实现简单的浏览器操作录制与回放功能,主要用于快速创建BUG及重现脚本,可转化为多种语言

2)Selenium RC: 核心组件,支持多种不同语言编写自动化测试脚本,通过其服务器作为代理服务器去访问应用,达到测试的目的

3)Selenium WebDriver(重点):一个浏览器自动化框架,它接受命令并将它们发送到浏览器。它是通过特定于浏览器的驱动程序实现的。它直接与浏览器通信并对其进行控制。Selenium WebDriver支持各种编程语言,如Java、C# 、PHP、Python、Perl、Ruby

4)Selenium grid:测试辅助工具,用于做分布式测试,可以并行执行多个测试任务,提升测试效率。

三、Selenium特点

     1)开源、免费
     2)多浏览器支持:FireFox、Chrome、IE、Opera、Edge;
     3)多平台支持:Linux、Windows、MAC;
     4)多语言支持:Java、Python、Ruby、C#、JavaScript、C++;
     5)对Web页面有良好的支持;
     6)简单(API 简单)、灵活(用开发语言驱动);
     7)支持分布式测试用例执行。

四、案例演示

爬虫:数据采集、数据清晰、数据分析!!!

4.1 java爬虫入门

下载驱动包
http://chromedriver.storage.googleapis.com/index.html

创建项目并导入依赖

    <dependency>
        <groupId>org.seleniumhq.selenium</groupId>
        <artifactId>selenium-java</artifactId>
        <version>3.141.59</version>
     </dependency>

入门

    //设置驱动
     System.setProperty("webdriver.chrome.driver","D:\\chromedriver.exe");
     //创建驱动
     WebDriver driver=new ChromeDriver();
     //与将要爬取的网站建立连接
     driver.get("https://www.baidu.com");
     //关闭浏览器
     driver.close();
     //释放资源
     driver.quit();

4.2 相关API

   1.元素选择方式

    1)Class选择:driver.findElement(By.className("s_ipt"));
     2)ID选择:   driver.findElement(By.id("kw"));
     3)name选择: driver.findElement(By.name("wd"));
     4)tag选择:  driver.findElements(By.tagName("input"));
     5)link选择: driver.findElement(By.linkText("地图"));
     6)Partial link选择(a标签文本内容模糊匹配):driver.findElement(By.partialLinkText("使用百"));
     7)css选择器:driver.findElement(By.cssSelector("#kw"));
     8)xpath选择:driver.findElement(By.xpath("//*[@id=\"kw\"]"));

    2.获取单个元素:driver.findElement

     3.获取多个元素:driver.findElements

     4.输入内容:input.sendKeys("java");

     5.元素点击:element.click();

     6.获取元素属性:nextPageEle.getAttribute("class")

     7.获取标签文本内容:titleEle.getText()

package com.zking;

import org.openqa.selenium.By;
import org.openqa.selenium.WebDriver;
import org.openqa.selenium.chrome.ChromeDriver;

import java.util.List;

public class Demo {
    public static void main(String[] args) {
        //设置驱动
        System.setProperty("webdriver.chrome.driver", "D:\\app\\Administrator\\initPath\\chromedriver.exe");
        //创建驱动
        WebDriver driver = new ChromeDriver();
        //与将要爬取的网站建立连接
        driver.get("https://www.baidu.com");

//        1)Class选择:driver.findElement(By.className("s_ipt"));
//        WebElement element=driver.findElement(By.className("s_btn"));
//        System.out.println(element.getAttribute("value"));
//
//        2)ID选择:   driver.findElement(By.id("kw"));
//        WebElement element=driver.findElement(By.id("kw"));
//        System.out.println(element.getAttribute("class"));
//
//        3)name选择: driver.findElement(By.name("wd"));
//        WebElement element=driver.findElement(By.name("wd"));
//        System.out.println(element.getAttribute("maxlength"));
//
//        4)tag选择:  driver.findElements(By.tagName("input"));
//        List<WebElement> elements = driver.findElements(By.tagName("a"));
//        for (WebElement element:elements){
//            System.out.println(element.getText().trim());
//        }
//        5)link选择: driver.findElement(By.linkText("地图"));
//        WebElement elemen = driver.findElement(By.linkText("网盘"));
//        System.out.println(elemen.getText());
//        6)Partial link选择(a标签文本内容模糊匹配):driver.findElement(By.partialLinkText("使用百"));
//        List<WebElement> elements = driver.findElements(By.partialLinkText("人"));
//        for (WebElement element:elements){
//            System.out.println(element.getText());
//        }
//        7)css选择器:driver.findElement(By.cssSelector("#kw"));
//        List<WebElement> elements = driver.findElements(By.cssSelector("#hotsearch-content-wrapper > li:nth-child(1)"));
//        for(WebElement element:elements){
//            System.out.println(element.getText());
//        }
//        8)xpath选择:driver.findElement(By.xpath("//*[@id=\"kw\"]"));
//        WebElement element = driver.findElement(By.xpath("//*[@id=\"kw\"]"));
//        System.out.println(element.getAttribute("value"));
//
//        driver.findElement(By.id("kw")).sendKeys("java");
//        driver.findElement(By.id("su")).click();
//    }
    }
}

以上就是今天的分享!!!

我的博客即将同步至腾讯云开发者社区,邀请大家一同入驻:https://cloud.tencent.com/developer/support-plan?invite_code=1y1pcwsaf33mn

  • 90
    点赞
  • 131
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 155
    评论
除了Selenium之外,还有其他一些常用的爬虫框架和工具可以用来实现爬虫案例。其中一些包括: 1. BeautifulSoup:BeautifulSoup是一个Python库,用于从HTML或XML文档中提取数据。它提供了简单而直观的方式来遍历、搜索和修改文档树。与Selenium不同,BeautifulSoup主要用于解析和提取静态网页的数据。 2. Scrapy:Scrapy是一个高级的Python爬虫框架,用于快速、高效地抓取和处理网页数据。它提供了强大的功能,如分布式爬虫、自动限速、数据存储和处理等。相比于Selenium,Scrapy更适合用于大规模和高效率的网页爬取。 3. Requests:Requests是一个简洁而方便的Python库,用于发送HTTP请求。它提供了简单易用的API,可以轻松地进行网页的获取和数据的提取。与Selenium和Scrapy不同,Requests适用于简单的网页抓取和数据提取任务。 4. PyQuery:PyQuery是一个基于jQuery语法的Python库,用于解析和处理HTML文档。它提供了与jQuery类似的API,可以方便地进行网页的解析和数据的提取。与Selenium和Scrapy相比,PyQuery主要用于对静态网页进行解析和提取。 这些都是常用的爬虫框架和工具,根据不同的需求和任务,可以选择合适的工具来实现爬虫案例。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *2* *3* [Selenium爬虫实战丨Python爬虫实战系列(8)](https://blog.csdn.net/m0_68103523/article/details/124912564)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_2"}}] [.reference_item style="max-width: 100%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 155
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

天蝎座的程序媛

你的鼓励是我最大的动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值