今日头条爬虫 java_Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻...

最新推荐文章于 2021-02-24 17:59:45 发布

weixin_39996750

最新推荐文章于 2021-02-24 17:59:45 发布

阅读量738

点赞数

文章标签：今日头条爬虫 java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39996750/article/details/114570927

版权

0x0 背景

最近学习爬虫，分析了几种主流的爬虫框架，决定使用最原始的两大框架进行练手：

Jsoup&HttpUnit

其中jsoup可以获取静态页面，并解析页面标签，最主要的是，可以采用类似于jquery的语法获取想要的标签元素，例如：

//1.获取url地址的网页html

html = Jsoup.connect(url).get();

// 2.jsoup获取新闻标签

Elements newsATags = html.select("div#headLineDefault")

.select("ul.FNewMTopLis")

.select("li")

.select("a");

但是，有些网页(例如今日头条)并非是静态页面，而是在首页加载后通过ajax获取新闻内容然后用js渲染到页面上的。对于这种页面，我们需要使用htmlunit来模拟一个浏览器访问该url，即可获取该页面的html字符串。代码如下：

WebClient webClient = new WebClient(BrowserVersion.CHROME);

webClient.getOptions().setJavaScriptEnabled(true);

webClient.getOptions().setCssEnabled(false);

webClient.getOptions().setActiveXNative(false);

webClient.getOptions().setCssEnabled(false);

webClient.getOptions().setThrowExceptionOnScriptError(false);

webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);

webClient.getOptions().setTimeout(10000);

HtmlPage htmlPage = null;

try {

htmlPage = webClient.getPage(url);

webClient.waitForBackgroundJavaScript(10000);

String htmlString = htmlPage.asXml();

return Jsoup.parse(htmlString);

} finally {

webClient.close();

}

0x1 搜狐、凤凰、网易爬虫

这三家的页面都是静态的，因此代码都差不多，只要分析页面标签找到对应的元素，提取出想要的内容即可。

爬虫基本步骤为以下四步：

(1)获取首页

(2)使用jsoup获取新闻标签

(3)从标签中抽取基本信息，封装成News对象

(4)根据新闻url访问新闻页面，获取新闻内容、图片等

1.爬虫接口

一个接口，接口有一个抽象方法pullNews用于拉新闻，有一个默认方法用于获取新闻首页：

public interface NewsPuller {

void pullNews();

// url:即新闻首页url

// useHtmlUnit:是否使用htmlunit

default Document getHtmlFromUrl(String url, boolean useHtmlUnit) throws Exception {

if (!useHtmlUnit) {

return Jsoup.connect(url)

//模拟火狐浏览器

.userAgent("Mozilla/4.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0)")

.get();

} else {

WebClient webClient = new WebClient(BrowserVersion.CHROME);

webClient.getOptions().setJavaScriptEnabled(true);

webClient.getOptions().setCssEnabled(false);

webClient.getOptions().setActiveXNative(false);

webClient.getOptions().setCssEnabled(false);

webClient.getOptions().setThrowExceptionOnScriptError(false);

webClient.getOptions().setThrowExceptionOnFailingStatusCode(false);

webClient.getOptions().setTimeout(10000);

HtmlPage htmlPage = null;

try {

htmlPage = webClient.getPage(url);

webClient.waitForBackgroundJavaScript(10000);

Strin

最低0.47元/天解锁文章

weixin_39996750

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
今日头条爬虫 java_Java爬虫实践：Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻...

0x0 背景最近学习爬虫，分析了几种主流的爬虫框架，决定使用最原始的两大框架进行练手：Jsoup&HttpUnit其中jsoup可以获取静态页面，并解析页面标签，最主要的是，可以采用类似于jquery的语法获取想要的标签元素，例如：//1.获取url地址的网页htmlhtml = Jsoup.connect(url).get();// 2.jsoup获取新闻标签Elements newsA...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。