使用JAVA+Selenium爬虫

最新推荐文章于 2024-05-15 23:15:00 发布

DengDengLei

最新推荐文章于 2024-05-15 23:15:00 发布

阅读量1.6w

点赞数 3

分类专栏： JAVA学习文章标签： java selenium 爬虫

本文链接：https://blog.csdn.net/egg1996911/article/details/79461063

版权

总体思路是获取网页加载完成后的html内容，解析html然后获取所需要的元素，从而获得需要的信息。

1、环境准备工作
知识上需要有基本的java和html知识；环境上需要准备java、selenium和chrome浏览器及对应的chrmoedriver（也可以使用firefox等浏览器，需要另外进行简单的配置），mac os下selenium+chrome的环境准备可以参见我的另一篇博客：http://blog.csdn.net/egg1996911/article/details/72085151。

2、分析所需要爬虫的网站的html结构
以新浪nba（http://sports.sina.com.cn/nba/）为例，我想要爬取的内容为首页的新闻信息，如下图中蓝框所框部分：
这里写图片描述

打开浏览器的开发者工具，分析所框部分的html元素：
这里写图片描述
可以发现新闻内容都在class=“item”的li元素下，这样我们就有迹可循了。

3、编写代码

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.openqa.selenium.JavascriptExecutor;
import org<

最低0.47元/天解锁文章

DengDengLei

关注

3
点赞
踩
32

收藏

觉得还不错? 一键收藏
0
评论
使用JAVA+Selenium爬虫

总体思路是获取网页加载完成后的html内容，解析html然后获取所需要的元素，从而获得需要的信息。1、环境准备工作知识上需要有基本的java和html知识；环境上需要准备java、selenium和chrome浏览器及对应的chrmoedriver（也可以使用firefox等浏览器，需要另外进行简单的配置），mac os下selenium+chrome的环境准备可以参见我的另一篇博客：http:
复制链接

扫一扫