使用webmagic爬取网页信息以及通过selenium进行页面元素操作

最新推荐文章于 2024-08-13 20:32:54 发布

前方一片光明

最新推荐文章于 2024-08-13 20:32:54 发布

阅读量3w

点赞数 811

分类专栏： Java系列爬虫系列文章标签：关于智能评论与智能关注

本文链接：https://blog.csdn.net/qq_26230421/article/details/96915174

版权

Java系列同时被 2 个专栏收录

74 篇文章 18 订阅

订阅专栏

爬虫系列

3 篇文章 5 订阅

订阅专栏

作者专注于Java、架构、Linux、小程序、爬虫、自动化等技术。工作期间含泪整理出一些资料，微信搜索【程序员高手之路】，回复【java】【黑客】【爬虫】【小程序】【面试】等关键字免费获取资料。技术交流、项目合作可私聊。

前言

网上的爬虫、自动化一般都是使用python来做的；

身为java程序员，当然要不甘示弱！

所以就写了java爬虫、自动化系列文章，供众多java程序员参考！

首先看一下自动化操作百度首页的图像，模拟输入、点击事件（源码地址：做自动化必备工作以及hello world代码）：

所用技术

1.webmagic

添加需要爬取的url

Spider.create(new MyProcessor()).addUrl("https://www.cnblogs.com/").thread(5).run();

在process里面抓取符合条件的内容

 public void process(Page page) {
        //判断链接是否符合http://www.cnblogs.com/任意个数字字母-/p/7个数字.html格式
        if(!page.getUrl().regex("http://www.cnblogs.com/[a-z 0-9 -]+/p/[0-9]{7}.html").match()){
           //加入满足条件的链接
            page.addTargetRequests(
                    page.getHtml().xpath("//*[@id=\"post_list\"]/div/div[@class='post_item_body']/h3/a/@href").all());

        }else{
            *[@id="post_list"]/div[5]/div[2]/h3/a
            //获取页面需要的内容
            System.out.println("抓取的内容："+
                    page.getHtml().xpath("//*[@id=\"Header1_HeaderTitle\"]/text()").get()
            );
            count ++;
        }
    }

2.selenium

以今日头条为例对页面元素（“关注”按钮）进行点击

设置驱动

System.setProperty("webdriver.chrome.driver", "CHROMEPATH/chromedriver.exe");

初始化driver

WebDriver driver = new ChromeDriver();

进入页面

driver.get("https://www.toutiao.com/c/user/relation/4492956276/?tab=followed#mid=4492956276");

获取所需元素

WebElement submit = li.findElement(By.cssSelector(".submit"));

点击

submit.click();

作者专注于Java、架构、Linux、小程序、爬虫、自动化等技术。工作期间含泪整理出一些资料，微信搜索【程序员高手之路】，回复【java】【黑客】【爬虫】【小程序】【面试】等关键字免费获取资料。技术交流、项目合作可私聊。

前方一片光明

关注

811
点赞
踩
103

收藏

觉得还不错? 一键收藏
打赏
331
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录