Java爬虫系列一:准备开始
最近公司需要一个爬虫,获取另外一个系统中的数据,整合到我们自己的项目中,一边研究,一边开发,学到了点东西,在这里想要跟大家稍微分享一下
前言
1、为什么用Java写一个爬虫
Python已经火了很久了,它功能强大,其中很擅长的一个就是写爬虫程序。作为一名Javaer,想要写爬虫的话难道要学习python吗?
想到这个问题我去度娘了下,其实java也可以写爬虫,只是需要的代码行数要比python多。但是用java写就不需要专门为了爬虫再去学习一门新语言了,感觉省时省力省麻烦。刚好最近有点时间,就去专门研究了下。
一、使用Java写出一个爬虫需要使用到那些技术和工具呢?
写爬虫的时候需要考虑很多东西,最重要的是请求的页面以那种协议请求,请求过来数据以后怎样进行解析,以入门级的角度来说主要分为一下几个:
1、使用HttpClient或者HtmlUntil工具进行接口页面
2、爬取的页面诗句使用Jsoup进行解析
3、如何不让对方系统发现,可以使用伪装浏览器和使用代理 IP
4、爬取的数据可以保存到数据库中,也可以保存到本地文件里。
二、一些优秀的爬虫项目
可以看下知乎上的这个内容
《GitHub 上有哪些优秀的 Java 爬虫项目》
https://www.zhihu.com/question/31427895
总结
第一篇文章主要介绍java爬虫前,咱们需要了解那些,需要使用那些技术,为后面进行开始爬取和解析数据做准备