![](https://img-blog.csdnimg.cn/20201014180756925.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
爬虫
隐行舟
这个作者很懒,什么都没留下…
展开
-
WebMagic
WebMagic的四个组件Downloader:负责从互联网上下载页面。WebMagic默认使用了Apache HttpClient作为下载工具。PageProcessor:负责解析页面,抽取有用信息,以及发现新的链接。WebMagic使用Jsoup作为HTML解析工具。在这四个组件中,PageProcessor对于每个站点每个页面都不一样,是需要使用者定制的部分。Scheduler负责管理待抓取的URL。WebMagic默认提供了JDK的内存队列来管理URL,并用集合来进行去重。也支持使用Re原创 2020-10-23 17:17:10 · 1545 阅读 · 1 评论 -
爬虫
HttpClientGET请求访问传智官网,请求url地址:http://www.itcast.cn/public static void main(String[] args) throws IOException { //创建HttpClient对象 CloseableHttpClient httpClient = HttpClients.createDefault(); //创建HttpGet请求 HttpGet httpGet = new Http原创 2020-10-19 14:48:53 · 141 阅读 · 0 评论