本来想爬今日头条,在网上找了很多方法,走了很多弯路,异步刷新没能解决,本人爬虫小白。后来发现json数据和本地cookie也有关,感觉前路艰难。果断换到网易新闻,网易新闻相对来说获取数据比较简单,通过谷歌F12分析包数据,发现网易异步刷新的包和访问路径有关,通过在线json解析数据发现可以解析,这让我欣喜不已。
json数据:
废话不多说,直接上代码
//网易新闻类型 String[] typeArray={ "BBM54PGAwangning","BCR1UC1Qwangning","BD29LPUBwangning","BD29MJTVwangning","C275ML7Gwangning"}; String type = typeArray[width]; //网易新闻列表url String url1 = "http://3g.163.com/touch/reconstruct/article/list/"; //网易新闻内容url String url2 = "http://3g.163.com/news/article/";
//根据新闻列表url,获取新闻docid,并把docid存储到list中 private static List<String> getDocid(String url,int num,String type) { String json = null; List<String> id=new ArrayList<>(); Map map=null; JSONArray parseArray=null; String jsonStrM=