java简单实现抓取动态网页数据

在这里我分享一段简单的获取js执行后的网页数据!


1.先建立一个maven工程


在这里我随便建了一个web工程!

2.将chromedriver.exe 文件放在安装谷歌的目录:

下载地址:http://cdn.npm.taobao.org/dist/chromedriver/2.34/chromedriver_win32.zip

根据你安装的Google路径比如:C:\\Program Files (x86)\\Google\\Chrome\\Application\\chromedriver.exe

3.在环境变量中的系统变量 path 中配置:

C:\\Program Files (x86)\\Google\\Chrome\\Application 

(配置到Application就可以了)

4.导入jar包,pom.xml 

<dependency>
    <groupId>org.seleniumhq.selenium</groupId>
    <artifactId>selenium-java</artifactId>
    <version>2.44.0</version>
</dependency>
<dependency>
    <groupId>org.seleniumhq.selenium</groupId>
    <artifactId>selenium-chrome-driver</artifactId>
    <version>2.44.0</version>
</dependency>
<dependency>
    <groupId>org.seleniumhq.selenium</groupId>
    <artifactId>selenium-server</artifactId>
    <version>2.18.0</version>
</dependency>
<!-- https://mvnrepository.com/artifact/us.codecraft/webmagic-core -->
<dependency>
    <groupId>us.codecraft</groupId>
    <artifactId>webmagic-core</artifactId>
    <version>0.6.1</version>
</dependency>
<!-- https://mvnrepository.com/artifact/org.webjars.npm/phantomjs -->
<dependency>
    <groupId>org.webjars.npm</groupId>
    <artifactId>phantomjs</artifactId>
    <version>2.1.2</version>
</dependency>

导入需要的jar包!

5.测试是否配置成功 如果启动浏览器 说明配置成功了

System.setProperty("webdriver.chrome.driver", "C:\\Program Files (x86)\\Google\\Chrome\\Application\\chromedriver.exe");
WebDriver webDriver = new ChromeDriver();
setProperty (String prop, String value);  
参数:  
prop - 系统属性的名称。  
value - 系统属性的值。 
返回:系统属性的值,如果没有值,则返回null。

6.获取网页js执行后页面全部数据

 
 
System.setProperty("webdriver.chrome.driver", "C:\\Program Files (x86)\\Google\\Chrome\\Application\\chromedriver.exe");
WebDriver webDriver = new ChromeDriver();
webDriver.get("http://top.baidu.com/?fr=mhd_card");//写入你要抓取的网址
WebElement webElement = webDriver.findElement(By.xpath("/html"));//获取页面全部信息
String htmlText=webElement.getAttribute("outerHTML");
 
webDriver.close();//必须关闭资源
 
 
WebDriver 获取网页数据信息,由By来定位,通过WebElement来解析数据!
 如果有兴趣的可以去看API!
 
 简单描述一下如何获取节点数据

 
String hotList=  webElement.findElement(By.id("hot-list")).getText();
通过getText()就能获取文本数据了!
String classText = element.findElement(By.className("className")).getText();
String label = webDriver.findElement(By.tagName("tagName")).getText();
标签 (多个以第一个为准)匹配获取文本
//可以执行jQuery查找元素,只要返回一个DOM元素   executeScript(“直接编写jQuery代码”)
WebElement element = (WebElement) ((JavascriptExecutor)webDriver).executeScript("return $('#index_dlt_code')[0]");
还有很多方法,这里就不详细一一说明了!
 

7.获取网页js执行后的style=“dispaly:none;“的隐藏数据

((JavascriptExecutor) webDriver).executeScript("return $('#"+id+"').css('display','block');");
WebElement element = (WebElement) ((JavascriptExecutor) webDriver).executeScript("return $('#"+id+"')[0]")
    通过 executeScript操作jQuery 将样式修改成block就可以获取到隐藏数据了!


 
 
 
 
 

  • 1
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值