搜索引擎
Rockics
这个作者很懒,什么都没留下…
展开
-
今天晚上要把larbin运行起来
晚上事情感觉还是蛮多的,下班先去定个房间,老婆要来北京。然后还要给大妈电话,说服她使用qq游戏,晚上主要是配置编译larbin,争取运行起来。好像还要洗衣服,查询明天出行路线之类的。 昨天晚上死活编译不过去,有点阴影。现在把查到的可能的解决方案记录一下,晚上逐一试验。 生活就是折腾,技术就是实践。 懒得全文拷贝了,复制url更妙; http://hi.baidu.c原创 2011-06-03 17:08:00 · 3036 阅读 · 0 评论 -
larbin跑起来了,下一步就是阅读代码了
03年的代码就是不好编译通过,即使现在larbin跑起来了,还是出现很多的警告 首先在下载larbin源代码。我下载的版本是larbin2.6.3 第一步: 注释adns目录下的internal.h的569到571行 第二步:到iostream的目录下复制一份到同一目录,文件名iostream.h,也就是说,iostream在什么目录,iostream.h就在什么目录原创 2011-06-03 22:37:00 · 3347 阅读 · 0 评论 -
关于curl,关于url分析
leader需要我从海量的url中选取url最多的1000个站点,每个站点再随机抽取100个url,分析url的质量,这里的质量,就是指是否死链,是否全部广告之类的 是否死链只要使用浏览器打开看看就OK了 然而 1000乘以100 ,一个一个去做的话,显然太傻,于是我使用了curl写个程序去获取http的头部信息,统计返回来的的状态码,程序再跑,可是异常的慢,现在终于明白为什么爬虫不可能使原创 2011-06-09 12:34:00 · 4210 阅读 · 0 评论 -
临时笔记
SPT-下载爬虫系统和数据分析(7370)职位描述: 岗位职责:负责搜索引擎爬虫系统的开发及相关数据的分析挖掘岗位要求:2年以上c 编程经验,对算法/数据结构有深刻理解熟悉linux编程和调试环境熟悉 socket 网络编程具备良好的团队协作能力及沟通能力有大型分布式系统设计开发经验优先有搜索引擎经验者优先具有数据挖掘、自然语原创 2011-06-15 18:05:00 · 2953 阅读 · 0 评论 -
并行爬虫设计相关1
挑战: 1.如何避免重复性。不同的处理线程(进程)如何协调,使得不重复下载页面。2.网页质量。每一个处理进程,如何能过全局的考虑网页的质量,因为他们彼此之间不知道对方存在,所以进程间了解的网页重要性有局部性。3.通信带宽。为了解决上述问题,进程间需要通信,然而随着规模的加大,通信花销也变得异常的大。 如果解决了上述问题,则并行爬虫要比单个爬虫更有诱惑力:1.可扩展原创 2011-06-14 14:48:00 · 3022 阅读 · 0 评论 -
zipfian分布
zipf law:在给定的语料中,对于任意一个term,其频度(freq)的排名(rank)和freq的乘积大致是一个常数。 It is known that the number of incoming links to pages on the Web follows a Zipfian distribution. That is, a small number of Web pa原创 2011-06-14 16:18:00 · 8204 阅读 · 0 评论 -
海量数据中随机抽查K个样本 算法
现在做爬虫阶段的数据分析,需要针对每一个站点随机抽检K个url,那么,如何从巨大数量的url中做到随机抽检呢?url的总数是不知道的,当然你可以扫描两次,第一次得到url总是,但是,有更好的做法。 (哈哈,我要无耻的说 原创 转帖标签不好看 :)) 以下引用来自:http://wansishuang.iteye.com/blog/443902要求从N个元素中随机的抽取k个元原创 2011-06-24 17:06:00 · 4074 阅读 · 0 评论