Crawljax性能问题之我见

最新推荐文章于 2022-07-27 11:24:30 发布

挨踢的架构师

最新推荐文章于 2022-07-27 11:24:30 发布

阅读量3.7k

点赞数

分类专栏： Tech 文章标签：浏览器算法多线程 ajax

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/scariii/article/details/7211173

版权

Tech 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

如果将Crawljax作为爬虫来用的话，有严重的性能问题，其问题主要在于其state管理机制，如下图：

由于浏览器缺省情况下是不能保持ajax应用的状态的，因此也就无法利用浏览器的回退机制，从当前state回退到上一个state，这样就必须从最初始的index state开始一层层地往下走，直到目标state。如果是一个较大型的网站，或者是翻页较多的网站，其state的层次非常之深，那么就会出现一种情况，crawljax每次抓取某一层次/某一页的资源时，总是需要从首页开始一页一页/一个层次一个层次地向下翻，所以基本上时间都花在state backtracking上面了，真正获取目标资源的时间只占了非常小的比例，几乎可以忽略不计。即使使用了多线程的方式，你也会看到，程序运行到后来，基本上所有线程大部分时间都是在做同样的事情，也就是在不断地翻页。

Crawljax使用的是深度优先的爬行算法，也许改用广度优先算法会好点，尝试中。。。

挨踢的架构师

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
Crawljax性能问题之我见

如果将Crawljax作为爬虫来用的话，有严重的性能问题，其问题主要在于其state管理机制，如下图：由于浏览器缺省情况下是不能保持ajax应用的状态的，因此也就无法利用浏览器的回退机制，从当前state回退到上一个state，这样就必须从最初始的index state开始一层层地往下走，直到目标state。如果是一个较大型的网站，或者是翻页较多的网站，其state的层次非常之深，那么
复制链接

扫一扫

专栏目录

挨踢的架构师 CSDN认证博客专家 CSDN认证企业博客

码龄21年

8: 原创

42万+: 周排名

83万+: 总排名

5万+: 访问

: 等级

495: 积分

8: 粉丝

3: 获赞

11: 评论

14: 收藏

私信

关注

热门文章

分类专栏

Tech 7篇

最新评论

避免hashcode重复
olddoor: 具体到算法的实现就看不懂了。
关于Linux下利用GPU对视频进行硬件加速转码的方案
linkscue 回复 blacksheep1314: 建议你直接下载 libva 进行编译测试 http://blog.csdn.net/myscue/article/details/49794855
避免hashcode重复
老焦: 楼主两位，明白楼主的用意吗？楼主在意的是节省内存，而不是解决JAVA集合存储重复数据的问题。。。。。
关于Linux下利用GPU对视频进行硬件加速转码的方案
blacksheep1314: 你好！hwdecode-demos编译的方式是否可以分享下，我的邮箱是30330427@qq.com，不胜感谢！
避免hashcode重复
mei_zi_365: 楼主的意思还不明白吗？楼主不想在hashset里存储爬虫爬过的url字符串，这样内存占用大。楼主只想知道，某个url之前有没有爬过。所以，只需要存储url对应的md5值或者hashcode，将要检测的url的md5或hashcode和缓存的做对比。问题在于，md5的长度，可能比大多数url长度相当。可行的是用hashcode，但是8位 int行hashcode重复概率大，所以楼主提出了生成long型hashcode的方案。似乎可行。那位兄弟帮着跑一下，看重复概率能到多少？我正在寻找一种替代java UID的方式，因为我项目需求是，对于同一个对象每次生成的UID都不能改变，只能寻求一种重复率极小（只存在理论上的重复率)的hash算法。

大家在看

青少年编程与数学 01-007 在网页上编写程序 10课题、字符串2_1

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。