互联网
文章平均质量分 78
iwtg
上海浦东,自由职业者
展开
-
搜索器robot技术
凡上网者都用过搜索引擎,Altavista、Infoseek 、Hotbot、网络指南针、北大天网和华好网景的ChinaOK等等,它们的索引数据库涉及Internet上超过1亿的页面(Altavista和Hotbot),北大天网也收集了32万个www页面(国内),索引数据库的建立需要访问这些页面然后进行索引,如何做到对如此多的页面的访问,现在的搜索引擎无论是针对英文还是中文,都是采用网上机器人来实原创 2005-02-19 14:34:00 · 987 阅读 · 0 评论 -
Larbin 爬虫工具介绍
【1】 larbin的简介 larbin是一种开源的网络爬虫/网络蜘蛛,由法国的年轻人 Sébastien Ailleret 独立开发。larbin目的是能够跟踪页面的url进行扩展的抓取,最后为搜索引擎提供广泛的数据来源。Larbin只是一个爬虫,也就是说larbin只抓取网页,至于如何parse的事情则由用户自己完成。另外,如何存储到数据库以及建立索引的事情 la原创 2005-02-19 14:24:00 · 2231 阅读 · 0 评论 -
crawler的关键技术
1.分布式,多线程抓取.任务的调度问题. 因为对于成千上万的网页, 如何不重复抓取, 又 不漏掉重要站点, 是一个很关键的问题. 这里需要一个好的分布式算法,一个很好的任务 调度机制。 算法,没有固定的名字,因为这是一个特殊的领域,但是对于调度算法的研究,会基于传统的 分布式调度算法来进行. 2.网页重要性的评估, 这个很重要,因为crawler不会把所有网页都原创 2005-02-19 14:15:00 · 1068 阅读 · 0 评论 -
有抱负的程序员应看的10个TED演讲
http://blog.jobbole.com/33797/ TED 起源于20世纪80年代(1984年),是一个小型独家聚会,参与人都是对技术(Technology)、娱乐(Entertainment)和设计(Design)感兴趣的思考者。TED目前已成长为一股强大的文化力量,其足迹包括了数以百计的 TEDx大会,数以百计的免费网络视频,还有不断在扩大的行动计划,比如为课堂改造 TE转载 2013-03-03 16:15:07 · 274 阅读 · 0 评论 -
【通信】TCP建立连接协议是三次握手,而关闭连接却是四次握手
服务端的LISTEN状态下的SOCKET当收到SYN报文的建连请求后,它可以把ACK和SYN(ACK应答,而SYN同步)放在一个报文里来发送。但关闭连接时,当收到对方的FIN报文通知时,它仅仅表示对方没有数据发送给你了;但未必你所有的数据都全部发送给对方了,所以你可以未必会马上会关闭SOCKET,也即你可能还需要发送一些数据给对方之后,再发送FIN报文给对方来表示你同意现在可以关闭连接了,所以原创 2013-04-14 15:41:58 · 478 阅读 · 0 评论 -
TIPC通信协议
透明进程间通信(Transparent Inter-process Communication, TIPC) 是一种用于进程间通信的网络通信协议,原本是为集群间通信特别设计的。它允许设计人员能够创建可以和其它应用快速可靠地通信应用,无须考虑在其它需要通信的应用在集群环境中的位置。TIPC的一些特点网络中服务的位置透明自动发现机制。可靠传输。标准套接字接口支持。无链接传输,面向链原创 2013-04-14 11:46:16 · 3363 阅读 · 1 评论 -
软件从业者的成长之路
我经常跟朋友说,一个工程师的价值取决于两个方面:一是你的内功,即综合能力、技术水平、思考力等等自己本身的素质,内功的价值如果有一个标尺的话一般由你公司给的年薪确定;另一个是外延,或曰影响力系数,就是将你的内功表达出来,让他人能够欣赏到你的价值。也取决于你在行业的被认知度,有多少高质量的connection,你的代码有多少开发者用了,在开源社区有多少代码被approve了,你做的产品有多少用转载 2013-04-28 06:56:07 · 551 阅读 · 0 评论 -
分布式文件系统
当前典型的分布式文件系统 1.hadoop一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上。而且它提供原创 2013-04-29 07:08:54 · 566 阅读 · 0 评论 -
【工具】常用工具&源码
1、git 软件下载 http://code.google.com/p/msysgit/downloads/list 进入你2、git代码下载方法 $ git clone git://git.kernel.org/pub/scm/linux/kernel/git/torvalds/linux.gitCloning into 'linux'...remote: Cou原创 2013-05-19 11:46:49 · 587 阅读 · 0 评论