基于Mongodb OPIC策略布隆过滤器 Jsoup Crawler4j源码自己写的一个爬虫框架

最新推荐文章于 2022-02-26 21:41:37 发布

置顶 liuyawen44

最新推荐文章于 2022-02-26 21:41:37 发布

阅读量1k

点赞数

分类专栏：爬虫研究心得文章标签： mongodb 爬虫框架 Jsoup 布隆过滤器

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/liuyawen44/article/details/52787832

版权

爬虫研究心得专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本人大三学生，最近突然对爬虫感兴趣，于是搜了搜Github 找到了一个比较简单的爬虫框架Crawler4j

当然我是学JAVA的，读了好久源码，想尝试着修改一下，写一个比较简单的自己的框架。当然，里面有很多抄袭的源码，更重要的抄袭了大神的思想，，但毕竟是学习，以提高自己能力为主，自己动手改一改，至少是把源码读懂了七七八八吧。。而且自我感觉多读源码对自己的编程能力还是有提高的。。

进入正题，，因为本人实在是很菜，不喜勿喷。我先谈谈我做的主要改动吧：

1、把内嵌的Berkeley DB改为了 MongoDB,因为刚好对很火的Nosql数据库很感兴趣，于是就算做个例子把数据库的JAVA驱动学习一遍吧。。

2、浏览过的URL使用布隆过滤器去重。

3、解析页面时用了Jsoup，，也算是为了学习吧。

4、Crawler4j中有些功能没有去深究，就直接去掉了。。比如恢复爬取等等。。

先放一张图。。这算是我做的一个小栗子吧

当然这个框架也是支持多线程的，，现在还有很多不完善的地方，，比如数据库的链接管理，，还有二进制文件（图片音频那些）的抓取暂时没有实现，，还有自己写的代码渣的让人难以直视。。。。

不过希望有兴趣的小伙伴可以一同完善一下，，共同进步吧~~也求各路大神指点指点

有兴趣的可以联系我 QQ:396995269

代码地址：

https://github.com/liuyawen44/Mycrawler

还是那句话，，不喜勿喷。。开源万岁！！！！

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
基于Mongodb OPIC策略布隆过滤器 Jsoup Crawler4j源码自己写的一个爬虫框架

本人大三学生，最近突然对爬虫感兴趣，于是搜了搜Github 找到了一个比较简单的爬虫框架Crawler4j当然我是学JAVA的，读了好久源码，想尝试着修改一下，写一个比较简单的自己的框架。当然，里面有很多抄袭的源码，更重要的抄袭了大神的思想，，但毕竟是学习，以提高自己能力为主，自己动手改一改，至少是把源码读懂了七七八八吧。。而且自我感觉多读源码对自己的编程能力还是有提高的。。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。