利用httpclient编写网页数据爬取有一段时间了,一直苦恼于重复的编码以及cookie的处理,一直希望有一个好用的java框架或者自己搞一个框架。可惜水平还不够格,而且也没时间安静下来抽象框架。
今天无意中看到网上有人推荐webmagic,百度了一下,发现这个框架的人气还是可以的,文档也比较具体。下面我也重头来体验下这个框架。
git项目地址:https://github.com/code4craft/webmagic
利用httpclient编写网页数据爬取有一段时间了,一直苦恼于重复的编码以及cookie的处理,一直希望有一个好用的java框架或者自己搞一个框架。可惜水平还不够格,而且也没时间安静下来抽象框架。
今天无意中看到网上有人推荐webmagic,百度了一下,发现这个框架的人气还是可以的,文档也比较具体。下面我也重头来体验下这个框架。
git项目地址:https://github.com/code4craft/webmagic