1.动态页面最主要的是分析,以百度的招聘为例,首先F12抓取看图点击clear清空net这样能够很好的抓取,之后点击分页操作查看请求
发现一个get请求,这样就很好了既然不是post 那就直接访问,发现百度并没有给做限制 ,可以直接访问,并且pagesize这个参数可以自己填无限大,当然如果数据多的话,可以写个循环直接让百度服务器down掉,但是咱们都是合法公民,就不让这样做了,爬取一下信息就可以了,如果是post 那就分析参数,模拟请求,我的以前博客有模拟请求的,好了,接下来上代码:
package com.learn;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.Connection.Response;
import org.jsoup.nodes.Document;
import com.alibaba.fastjson.JSON;
import com.alibaba.fastjson.JSONArray;
import com.alibaba.fastjson.JSONObject;
public class PaBaidu {
public static void main(String[] args) throws Exception {
String url ="https://talent.baidu.com/baidu/web/httpservice/getPostList?r