java phantomjs 2.1.1_Java之网络爬虫WebCollector2.1.2+selenium2.44+phantomjs2.1.1

最新推荐文章于 2022-06-21 00:10:59 发布

一枚奶爸

最新推荐文章于 2022-06-21 00:10:59 发布

阅读量101

点赞数

文章标签： java phantomjs 2.1.1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_28753647/article/details/114248868

版权

/*** Project Name:padwebcollector

* File Name:DiscussService.java

* Package Name:com.pad.service

* Date:2018年7月25日下午4:59:44

* Copyright (c) 2018 All Rights Reserved.

**/

packagecom.pad.service;importjava.util.ArrayList;importjava.util.List;importorg.openqa.selenium.By;importorg.openqa.selenium.WebDriver;importorg.openqa.selenium.WebElement;importorg.openqa.selenium.phantomjs.PhantomJSDriver;importcn.edu.hfut.dmic.webcollector.crawler.DeepCrawler;importcn.edu.hfut.dmic.webcollector.model.Links;importcn.edu.hfut.dmic.webcollector.model.Page;importcom.pad.entity.DiscussInfo;importcom.pad.impl.DiscussInfoImpl;public class DiscussService extendsDeepCrawler {publicDiscussService(String crawlPath) {super(crawlPath);//TODO Auto-generated constructor stub

}

@OverridepublicLinks visitAndGetNextLinks(Page page) {//TODO Auto-generated method stub

WebDriver driver =getWebDriver(page);

Analysis analysis= newAnalysis();

List discusslist = newArrayList();

List list = driver.findElements(By.className("content"));int i = 1;

String r_msg= "观望";for(WebElement el : list) {if(!"".equals(el.getText().trim())){

r_msg=analysis.analysis(el.getText());

}

DiscussInfo info= newDiscussInfo();

info.setLine_no(String.valueOf(i));

info.setResult_msg(r_msg);

info.setContent_msg(el.getText());

discusslist.add(info);

System.out.println(i+" "+el.getText());

i++;

}

driver.close();

driver.quit();

DiscussInfoImpl impl= newDiscussInfoImpl();

impl.saveData(discusslist);return null;

}public staticWebDriver getWebDriver(Page page) {

System.setProperty("phantomjs.binary.path", "D:\\******\\phantomjs.exe");

WebDriver driver= newPhantomJSDriver();

driver.get(page.getUrl());returndriver;

}public static voidmain(String[] args) {

DiscussService dis=new DiscussService("discuss");

dis.addSeed("https://*******/index/0000012");try{

dis.start(1);

}catch(Exception e) {

e.printStackTrace();

}

}

}

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。