每天接触一点互联网
继续微笑lsj
眼界决定未来
展开
-
负载均衡技术
当前,无论在企业网、园区网还是在广域网如Internet上,业务量的发展都超出了过去最乐观的估计,上网热潮风起云涌,新的应 用层出不穷,即使按照当时最优配置建设的网络,也很快会感到吃不消。尤其是各个网络的核心部分,其数据流量和计算强度之大, 使得单一设备根本无法承担,而如何在完成同样功能的多个网络设备之间实现合理的业务量分配,使之不致于出现一台设备过忙、而 别的设备却未充分发挥处理能力的情况,转载 2013-08-10 20:03:36 · 1205 阅读 · 0 评论 -
流量变现
在互联网行业,有这样一个公式:用户=流量=金钱。要实现流量变现最重要的就是有足够的流量,网站流量指网站的访问量,是用来描述访问一个网站的用户数量以及用户所浏览的页面数量等指标,常用的统计指标包括网站的独立用户数量UV、总用户数量(含重复访问者)、页面浏览数量PV、每个用户的页面浏览数量、用户在网站的平均停留时间等。有了足够的流量还需要强大的变现能力,因此流量变现的关键在于流量和变现方法。流量的关键转载 2013-12-29 18:49:43 · 3695 阅读 · 0 评论 -
数据相似性检测算法
1、引言 "数据同步算法研究"一文研究了在网络上高效同步数据的方法,其中有个前提是文件A和B非常相似,即两者之间存在大量相同的数据。如果两个文件相似性很低,虽然这种方法依然可以正常工作,但数据同步性能却不会得到提高,甚至会有所降低。因为会产生部分元数据和网络通信消耗,这在两个文件完全不相关时尤为明显。因此,同步数据前需要计算种子文件(seed file)与目标文件之间的相似性,如果相似性转载 2013-11-05 23:46:22 · 2546 阅读 · 0 评论 -
不简单的URL去重
发现我有好几篇blog的前缀都是用的“不简单”,它大概描述了这样一个状态:一个看起来很简单的任务在实践之后,发现其实很不容易。很多事情都是这样,如果不是亲自去做,如果不是仔细钻研,那就只能处于雾里看花的状态。这让我想到另一个故事,在我毕业的那年曾经被某公司的CTO面试,他和我说过一句话让我至今记忆犹新,他跟我说技术其实是很简单的(几年后某位大牛也和我表达过类似的意思)。我一直琢磨这句话的含义,转载 2013-10-14 09:26:34 · 1176 阅读 · 0 评论 -
浅析PageRank算法
很早就对Google的PageRank算法很感兴趣,但一直没有深究,只有个轮廓性的概念。前几天趁团队outing的机会,在动车上看了一些相关的资料(PS:在动车上看看书真是一种享受),趁热打铁,将所看的东西整理成此文。本文首先会讨论搜索引擎的核心难题,同时讨论早期搜索引擎关于结果页面重要性评价算法的困境,借此引出PageRank产生的背景。第二部分会详细讨论PageRank的思想来源、基础转载 2013-09-17 16:37:58 · 1590 阅读 · 0 评论 -
网页爬虫中的多线程模式
前天跟师兄讨论问题,提到多线程,这些天做简历,也在回顾项目,忽然想到曾经写过网络爬虫中所用到的多线程,当时就顾写了,没有好好总结,只记得细节很多,学到的东西不少,今天就爬虫中涉及到的多线程设计模式做个小整理,重点加深读写锁模式的理解。内容如下:===问题细节说明===网页抓取:生产者消费者模式(多v多)===URL去重:读写锁模式===网页写入文件:生产者消费者模式转载 2013-09-14 10:00:03 · 1866 阅读 · 0 评论 -
网络爬虫设计——URL去重存储库设计
在爬虫启动工作的过程中,我们不希望同一个网页被多次下载,因为重复下载不仅会浪费CPU机时,还会为搜索引擎系统增加负荷。而想要控制这种重复性下载问题,就要考虑下载所依据的超链接,只要能够控制待下载的URL不重复,基本可以解决同一个网页重复下载的问题。 非常容易想到,在搜索引擎系统中建立一个全局的专门用来检测,是否某一个URL对应的网页文件曾经被下载过的URL存储库,这就是方案。转载 2013-09-17 12:43:47 · 2186 阅读 · 0 评论 -
一致性哈希算法及其在分布式系统中的应用
摘要本文将会从实际应用场景出发,介绍一致性哈希算法(Consistent Hashing)及其在分布式系统中的应用。首先本文会描述一个在日常开发中经常会遇到的问题场景,借此介绍一致性哈希算法以及这个算法如何解决此问题;接下来会对这个算法进行相对详细的描述,并讨论一些如虚拟节点等与此算法应用相关的话题。附一个原文地址:http://blog.codinglabs.org/articles转载 2013-09-17 15:31:30 · 1526 阅读 · 0 评论 -
分布式缓存
memcached的分布式正如第1次中介绍的那样, memcached虽然称为“分布式”缓存服务器,但服务器端并没有“分布式”功能。 服务器端仅包括 第2次、 第3次 前坂介绍的内存存储功能,其实现非常简单。 至于memcached的分布式,则是完全由客户端程序库实现的。 这种分布式是memcached的最大特点。memcached的分布式是什么意思?这里多次使用了“分转载 2013-07-12 23:55:21 · 1300 阅读 · 0 评论 -
基于hash计算的多层实验流量切分的实现
1. 背景介绍 站点新功能或者是站内新策略开发完毕之后,在全流量上线之前要评估新功能或者新策略的优劣,常用的评估方法是A-B测试,做法是在全量中抽样出两份小流量,分别走新策略分支和旧策略分支,通过对比这两份流量下的各指标的差异,我们可以评估出新策略的优劣,进而决定新策略是否全流量。 上文中提到的抽样是指按照某种确定的随机化方法,对线上流量进转载 2013-08-12 12:42:57 · 3156 阅读 · 2 评论 -
反向代理服务器的工作原理
最近有打算研读nginx源代码,看到网上介绍nginx可以作为一个反向代理服务器完成负载均衡。所以搜罗了一些关于反向代理服务器的内容,整理综合。 一 概述 反向代理(Reverse Proxy)方式是指以代理服务器来接受Internet上的连接请求,然后将请求转发给内部网络上的服务器;并将从服务器上得到的结果返回给Internet上请求连接的客户转载 2013-08-10 19:13:01 · 1188 阅读 · 0 评论 -
GZIP、LZO、Zippy/Snappy常用压缩算法
网址: http://www.cnblogs.com/panfeng412/archive/2012/12/24/applications-scenario-summary-of-compression-algorithms.htmlGZIP、LZO、Zippy/Snappy是常用的几种压缩算法,各自有其特点,因此适用的应用场景也不尽相同。这里结合相关工程实践的情况,做一次小结。压转载 2016-06-25 07:53:32 · 1444 阅读 · 0 评论