![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
海量数据与新技术
starbug
这个作者很懒,什么都没留下…
展开
-
有100W个关键字,长度小于等于50字节。用高效的算法找出top10的热词,并对内存的占用不超过1MB。
①先把100W个关键字hash映射到小文件,根据题意,100W*50B = 50*10^6B = 50M,而内存只有1M,故干脆搞一个hash函数 % 50,分解成50个小文件;②针对对每个小文件依次运用hashmap(key,value)完成每个key的value次数统计,后用堆找出每个小文件中value次数最大的top 10;③最后依次对每两小文件的top 10归并,得到最终的top原创 2013-12-10 23:35:59 · 2000 阅读 · 0 评论 -
mapreduce
We want to count all the books in the library. You count up shelf #1, I count up shelf #2. That’s map. The more people we get, the faster it goes.Now we get together and add our individual counts. T原创 2014-01-11 21:11:39 · 453 阅读 · 0 评论 -
谷歌技术“三宝”之GFS
http://blog.csdn.net/opennaive/article/details/7483523题记:初学分布式文件系统,写篇博客加深点印象。GFS的特点是使用一堆廉价的商用计算机支撑大规模数据处理。虽然"The Google File System " 是03年发表的老文章了,但现在仍被广泛讨论,其对后来的分布式文件系统设计具有指导意义。然而,作者在设计GFS时,转载 2014-01-06 22:02:10 · 867 阅读 · 0 评论 -
谷歌技术“三宝”之MapReduce
转自http://blog.csdn.net/opennaive/article/details/7514146江湖传说永流传:谷歌技术有"三宝",GFS、MapReduce和大表(BigTable)!谷歌在03到06年间连续发表了三篇很有影响力的文章,分别是03年SOSP的GFS,04年OSDI的MapReduce,和06年OSDI的BigTable。SOSP和OSDI都是操作系转载 2014-01-06 22:00:08 · 640 阅读 · 0 评论 -
谷歌技术“三宝”之BigTable
转自http://blog.csdn.net/opennaive/article/details/75325892006年的OSDI有两篇google的论文,分别是BigTable和Chubby。Chubby是一个分布式锁服务,基于Paxos算法;BigTable是一个用于管理结构化数据的分布式存储系统,构建在GFS、Chubby、SSTable等google技术之上。相当多的google转载 2014-01-06 21:58:36 · 727 阅读 · 0 评论 -
谷歌三大技术中文版
这三篇论文翻译质量相当高,三位译者作出了非常了不起的、实实在在的贡献,真是应该好好感谢他们!MapReduce:http://blog.csdn.net/active1001/archive/2007/07/02/1675920.aspxGFS:http://blog.csdn.net/xuleicsu/archive/2005/11/10/526386.aspxB原创 2014-01-06 21:52:06 · 523 阅读 · 0 评论 -
高性能服务器开发(链接)
高性能服务器必须考虑的4个方面:1 数据拷贝2 内存管理3 进程/线程上下文切换4 锁争用说明:以下文章中会包含一些研究服务器性能的链接,这些链接也是非常重要的文档,本文不再列出,查看下面的文章内容时,可点击文章里面的链接访问。影响服务器性能的TCP选项:TCP_CORK,TCP_NODELAYhttp://bbs.net130.com/showthread转载 2014-01-06 21:11:55 · 674 阅读 · 0 评论 -
libevent使用经验
最近一个项目中需要提供一个简单的采用http post协议的服务,开发语言是C++,考虑到各种因素,最终决定直接采用libevent,一方面比较熟悉,另一方面也可能复用其提供的定期事件回调,不然自己编写一个类似Reactor的框架花费太大。下面是一些关于libevent的介绍文章:官方网站:http://libevent.org/官方手册:http://www.wangaf转载 2014-01-06 16:58:52 · 722 阅读 · 0 评论 -
libevent的使用
转自http://www.cnblogs.com/cnspace/archive/2011/07/19/2110891.html这篇文章介绍下libevent在socket异步编程中的应用。在一些对性能要求较高的网络应用程序中,为了防止程序阻塞在socket I/O操作上造成程序性能的下降,需要使用异步编程,即程序准备好读写的函数(或接口)并向系统注册,然后在需要的时候只向系统提交读写的请转载 2014-01-06 16:56:53 · 558 阅读 · 0 评论 -
libevent学习
http://blog.csdn.net/sparkliang/article/category/660506原创 2014-01-06 15:35:14 · 459 阅读 · 0 评论 -
C10K 問題和 Libevent 庫簡介
一.C10K的問題C10K的問題在上個世紀90年代就被提出來了。大概的意思是當用戶數超過1萬時,很多設計不良好的網絡服務程序性能都將急劇下降、甚至癱瘓。並且,這個問題並不能通過升級硬件設備解決,是操作系統固有的問題,也就是說,如果你的服務器最高能支撐1000個並發,儘管你升級了計算能力高一倍的 cpu,內存再翻一番,硬盤轉速在快一倍,也無法支撐2000個並發。經典的網絡編程模型有4转载 2014-01-06 15:20:50 · 651 阅读 · 0 评论 -
高性能服务器架构
本文将与你分享我多年来在服务器开发方面的一些经验。对于这里所说的服务器,更精确的定义应该是每秒处理大量离散消息或者请求的服务程序,网络服务器更符合这种情况,但并非所有的网络程序都是严格意义上的服务器。使用“高性能请求处理程序”是一个很糟糕的标题,为了叙述起来简单,下面将简称为“服务器”。 本文不会涉及到多任务应用程序,在单个程序里同时处理多个任务现在已经很常见。比如你的浏览器可能就在做一翻译 2014-01-06 15:07:21 · 590 阅读 · 0 评论 -
负载均衡问题
http://zh.wikipedia.org/wiki/%E8%B4%9F%E8%BD%BD%E5%9D%87%E8%A1%A1_(%E8%AE%A1%E7%AE%97%E6%9C%BA)http://www.cnblogs.com/and/p/3366400.htmlhttp://blog.csdn.net/gaoshusheng007/article/details/144485原创 2014-01-06 15:01:57 · 508 阅读 · 0 评论 -
腾讯面试题:服务器内存1G,有一个2G的文件,里面每行存着一个QQ号(5-10位数),怎么最快找出出现过最多次的QQ号。
腾讯最新面试题:服务器内存1G,有一个2G的文件,里面每行存着一个QQ号(5-10位数),怎么最快找出出现过最多次的QQ号。以下是个人所建第Algorithms_12群内朋友的聊天记录: 首先你要注意到,数据存在服务器,存储不了(内存存不了),要想办法统计每一个qq出现的次数。比如,因为内存是1g,首先 你用hash 的方法,把qq分配到10个(这个数字可以变动,比较)文原创 2013-12-13 13:35:17 · 5274 阅读 · 1 评论 -
海量数据杂
海量数据分布在100台电脑中,想个办法高效统计出这批数据的TOP10。(此题请参考本博客内其它文章)。某服务器流量统计器,每天有1000亿的访问记录数据,包括时间、url、ip。设计系统实现记录数据的保存、管理、查询。要求能实现一下功能:(1)计算在某一时间段(精确到分)时间内的,某url的所有访问量。(2)计算在某一时间段(精确到分)时间内的,某ip的所有访问量。 假原创 2013-12-13 13:30:15 · 871 阅读 · 0 评论 -
设计一个DNS的Cache结构,要求能够满足每秒5000以上的查询,满足IP数据的快速插入,查询的速度要快
题目: 要求设计一个DNS的Cache结构,要求能够满足每秒5000以上的查询,满足IP数据的快速插入,查询的速度要快。(题目还给出了一系列的数据,比如:站点数总共为5000万,IP地址有1000万,等等) DNS服务器实现域名到IP地址的转换。 每个域名的平均长度为25个字节(估计值),每个IP为4个字节,所以Cache的每个条目需要大概30个字节。原创 2013-12-13 12:23:35 · 1908 阅读 · 0 评论 -
如何处理海量数据
转自http://www.cnblogs.com/lovexinsky/archive/2012/03/09/2387583.html在实际的工作环境下,许多人会遇到海量数据这个复杂而艰巨的问题,它的主要难点有以下几个方面:一、数据量过大,数据中什么情况都可能存在。如果说有10条数据,那么大不了每条去逐一检查,人为处理,如果有上百条数据,也可以考虑,如果数据上到千万级别,甚转载 2014-03-13 23:53:39 · 917 阅读 · 0 评论