初学java爬虫，用htmlunit + jsoup解析JavaScript

最新推荐文章于 2023-01-09 08:00:00 发布

MervynLammm

最新推荐文章于 2023-01-09 08:00:00 发布

阅读量1.1k

点赞数 1

分类专栏：爬虫

本文链接：https://blog.csdn.net/Rec_Mervyn/article/details/88774802

版权

在用jsoup爬晋江的时候，模拟登陆后仍获取不到v章内容。经验证，是因为jsoup无法解析JavaScript，而v章内容是js动态获取的。经过查阅资料，最后使用htmlunit+jsoup来实现
登陆和获取cookies在上一篇已经写了，不再赘述。

	public static String getChapterContent(Chapter chapter, String novelUrl) {
   
		System.out.println("正在获取第"+chapter.getChapterNum()+"章 "+chapter.getChapterTitle());
		//如果是锁章，返回
		if (chapter.getUrl() == null) {
   
			return chapter.getContent();
		}
		//模拟浏览器
		WebClient webClient = new WebClient(BrowserVersion.CHROME);
		//设置请求头、cookies、代理
		WebRequest request = null;
		try {
   
			request = new WebRequest(new URL(chapter.getUrl()));
		} catch (MalformedURLException e2) {
   
			e2.printStackTrace();
		}
		request.setProxyHost(ip);//设置代理
		request.setProxyPort(port)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

MervynLammm

关注关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
初学java爬虫，用htmlunit + jsoup解析JavaScript

在用jsoup爬晋江的时候，模拟登陆后仍获取不到v章内容。经验证，是因为jsoup无法解析JavaScript，而v章内容是js动态获取的。经过查阅资料，最后使用htmlunit+jsoup来实现登陆和获取cookies在上一篇已经写了，不再赘述。 public static String getChapterContent(Chapter chapter, String novelUrl) ...
复制链接

扫一扫