Java 爬虫
Java 爬虫
lytao123
一起学习一起嗨!
展开
-
Java爬虫-使用HttpClient+Jsoup实现简单的爬虫爬取文本
一、工具介绍 HttpClient是Apache Jakarta Common下的子项目,用来提供高效的、最新的、功能丰富的支持HTTP协议的客户端编程工具包,并且它支持HTTP协议最新的版本和建议。HttpClient已经应用在很多的项目中,比如Apache Jakarta上很著名的另外两个开源项目Cactus和HTMLUnit都使用了HttpClient。 HttpClient下载地址...原创 2018-07-20 17:18:30 · 696 阅读 · 0 评论 -
Java实现MongoDB的操作,以Java爬虫爬取CSDN博客为例
一、下载驱动 大家可以去MongoDB官网下载,我也整理了MongoDB的Java驱动包上传到了CSDN,点击下载 二、代码简介 本爬虫是基于HttpClient+Jsonp框架编写,数据库采用MongoDB。功能是通过提供CSDN中博主的id名,将该博主的博文信息采集入库。大体过程是通过HttpClient访问网页,Jsonp解析将爬取的博文地址(URL)进行存储在集合 blo...原创 2018-08-08 14:59:04 · 959 阅读 · 0 评论