Java爬虫实践:Jsoup+HttpUnit爬取今日头条、网易、搜狐、凤凰新闻
0x0 背景最近学习爬虫,分析了几种主流的爬虫框架,决定使用最原始的两大框架进行练手: Jsoup&HttpUnit 其中jsoup可以获取静态页面,并解析页面标签,最主要的是,可以采用类似于jquery的语法获取想要的标签元素,例如://1.获取url地址的网页htmlhtml = Jsoup.connect(url).get();// 2.jsoup获取新闻<...
原创
2018-06-08 10:09:34 ·
13006 阅读 ·
33 评论