目前爬虫技术非常火,使用Java、Python、PHP等语言都可以完成。虽说现在Python是开发爬虫的首选语言,但是Java在爬虫的开发方面也是有一定优势的:例如,HttpClient可以很好地模拟浏览器请求;Jsoup在解析爬取的Html文档时具有非常高效的特性;最重要的是Java很好地支持分布式开发,在很大程度上提高了爬虫的效率;Java可以十分方便的开发一款可视化界面,用来对爬虫进行监控。
本专栏将介绍以下内容:
1、Socket编程
(1)Socket是java网络编程的基础,本文使用Socket模拟发送Get和Post请求
(2)https://blog.csdn.net/tiandixuanwuliang/article/details/80796002
2、HttpURLConnection编程
(1)使用HttpURLConnection发送Get和Post请求
(2)
3、HttpClient编程
(1)HttpClient具有使用方便,高效率的特性,本文使用HttpClient发送Get和Post请求,后续的爬虫也是基于HttpClient开发的
(2)
4、Jsoup的使用
(1)Jsoup在解析Html文档时具有非常高效的特性,使用起来非常方便
(2)
5、虎嗅网爬虫—-基础版
(1)本文使用HttpClient+Jsoup开发简单版本爬虫
(2)
6、虎嗅网爬虫—-中级版
(1)在基础版本上,使用了多线程技术
(2)
7、虎嗅网爬虫—-高级版
(1)在中级版本上,增加了Redis缓存,使用了Redis提供的队列功能,并且把该爬虫变为一个分布式爬虫
(2)
8、京东爬虫
(1)爬取京东网站的数据
(2)
9、图片中的文字识别
(1)使用Tesseract技术识别图片中的文字
(2)