由于我们公司第二季度亏了7-8亿,所以项目组没有多余的资金让我们去正规渠道买数据。然后我就走向了一天爬虫的不归路。
其实Java爬虫有很多开源的框架,这边我选择的是webcollector这个中小型的框架(官网:https://github.com/CrawlScript/WebCollector,教程文档:http://datahref.com/archives/category/webcollector%E6%95%99%E7%A8%8B)
爬虫新手一只,现在我把代码贴出来,我们共同学习:
import cn.edu.hfut.dmic.webcollector.model.CrawlDatum; import cn.edu.hfut.dmic.webcollector.model.CrawlDatums; import cn.edu.hfut.dmic.webcollector.model.Page; import cn.edu.hfut.dmic.webcollector.net.HttpRequest; import cn.edu.hfut.dmic.webcollector.plugin.berkeley.BreadthCrawler; import cn.edu.hfut.dmic.webcollector.util.CharsetDetector; import org.apache.http.HttpEntity; import org.apache.http.HttpResponse; import org.apache.http.client.methods.HttpGet; import o