网络爬虫
no-co-din-g
这个作者很懒,什么都没留下…
展开
-
学习《自己动手写网络爬虫》之记录1
某天突发奇想,想自己写一个网络爬虫,然后上网查了前辈们的经历,发现网络爬虫好处多多,于是坚定了自己的决心。再上网一找,看到好多人推荐这本书,于是就以这本书为参考来实现自己的网络爬虫了!首先都是照着书上的程序的运行,但毕竟这本书已经发行挺久了,于是可能会有一些误差,所以开这个博客记录一下自己的网络爬虫之路。先说一下作者推荐的开源工具httpclient。作者用的应该是3.x,但是现在官网原创 2015-04-01 11:23:46 · 5236 阅读 · 1 评论 -
学习《自己动手写网络爬虫》之记录2
这一节是书中的第一个比较综合的实例,包括5个.java文件,把程序实现之后没有什么大问题,只有一个接口类需要注意:LinkFilter,书中后面也说了,这个类需要实现,也给出了实现代码。这里主要说的是要注意一下这个类的引用问题。因为这个类我是在HtmlParserTool中实现的,但是在MyCrawler中有引用,这里不必重复实现,否则会出错,具体原因我也不知道,可能是变量的作用域引起的。解决原创 2015-04-01 14:18:00 · 1136 阅读 · 0 评论