搜索引擎
lizhihaoweiwei
这个作者很懒,什么都没留下…
展开
-
一个完整的搜索引擎长篇连载
此文是本人在完成一个真实项目过程,实现的一个完整搜索引擎的过程,计划在完成《Nginx》系统后完成此文,不定期更新。。。原创 2014-01-03 00:10:07 · 663 阅读 · 0 评论 -
两层 if 防止同步问题
最近在阅读 weblech 的源代码的时候,发现一个写法有点意思。public void saveCheckpoint() { SpiderConfig config = SpiderConfigInit.getSpiderConfigInit().getSingleSpiderConfig(); long intervalMillis = 1原创 2014-03-10 22:10:49 · 978 阅读 · 0 评论 -
前台js 与php 后台交互传输字符串,处理反斜杠的问题
问题是这样的,目前我在做一个爬虫,有一堆配置,所以写了个网站用来简化配置,后台用的网上的框架。其中有一项是要传入某些正则表达式规则用来过滤。但在前台录入这些正则规则后数据库中以及再次显示这些规则时,所有正则表达式中的反斜杠都不见了。于是,先想到可能是服务器接受字符串时作了处理,于是用两个反斜杠来表示反斜杠。再看效果确实没有问题,从前台录入的正则表达式虽然比原来要长(因为原来正则表达式中的一个反原创 2014-03-09 16:17:55 · 2334 阅读 · 0 评论 -
论判断一个 URL 是否已经被爬虫处理
待续。。。原创 2014-03-11 12:16:40 · 2582 阅读 · 0 评论 -
一个对JAVA不熟悉导致实现造轮子的悲惨故事
近期有个项目是要实现一个简单的垂直搜索引擎,在做爬虫这一块时,要分析页面上所有的URL。但有些URL采用的是相对链接地址形式。如:http://blog.csdn.net/lizhihaoweiwei/article/details/17839481这个页面上有个链接叫做 34342,则这个链接的真实地址为:http://blog.csdn.net/lizhihaoweiwei/artic原创 2014-03-05 17:17:41 · 2077 阅读 · 1 评论 -
深入理解 equal 与 hashcode
待续。。。原创 2014-03-11 12:15:28 · 544 阅读 · 0 评论 -
线程 start 之一个隐蔽的问题
。。。待续原创 2014-03-11 12:14:25 · 657 阅读 · 0 评论 -
爬虫难点
这篇文章结合我做的搜索引擎项目遇到的问题,做一个功能完善,易于扩展的爬虫还真是费心费力,虽然这些技术都被人研究过,但实际自己动手从零做起,还是会遇到很多很多问题,此文列举出一些我觉得比较难解决,或者比较难以发现,难以考虑周全的问题,用来给大家参考。可能有些问题下面没有给出我的解决方案,但我会不定期更新,最近太忙了。。。1.如何构建一个功能易于扩展的爬虫。2.如何构建一个架构原创 2014-03-30 22:59:44 · 2479 阅读 · 0 评论