初学java爬虫,用htmlunit + jsoup解析JavaScript

在用jsoup爬晋江的时候,模拟登陆后仍获取不到v章内容。经验证,是因为jsoup无法解析JavaScript,而v章内容是js动态获取的。经过查阅资料,最后使用htmlunit+jsoup来实现
登陆和获取cookies在上一篇已经写了,不再赘述。

	public static String getChapterContent(Chapter chapter, String novelUrl) {
   
		System.out.println("正在获取第"+chapter.getChapterNum()+"章 "+chapter.getChapterTitle());
		//如果是锁章,返回
		if (chapter.getUrl() == null) {
   
			return chapter.getContent();
		}
		//模拟浏览器
		WebClient webClient = new WebClient(BrowserVersion.CHROME);
		//设置请求头、cookies、代理
		WebRequest request = null;
		try {
   
			request = new WebRequest(new URL(chapter.getUrl()));
		} catch (MalformedURLException e2) {
   
			e2.printStackTrace();
		}
		request.setProxyHost(ip);//设置代理
		request.setProxyPort(port)
  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值