算法
文章平均质量分 79
hadoop17173
这个作者很懒,什么都没留下…
展开
-
海量数据面试题整理
1. 给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的url?方案1:可以估计每个文件安的大小为50G×64=320G,远远大于内存限制的4G。所以不可能将其完全加载到内存中处理。考虑采取分而治之的方法。s 遍历文件a,对每个url求取,然后根据所取得的值将url分别存储到1000个小文件(记为)中。这样每个小文件的大约为3转载 2013-05-16 14:18:30 · 892 阅读 · 0 评论 -
用算法来防范水军评分站点的福音
(先观影者)看了电影后的打分在4分以上(5分满分)或8.8分与9.1分之间(10分满分),但是上画第一天,电影评分就从9.1分直降至3分”《王的盛宴》事件引发了不少对评分类网站水军的讨论。不管是电影评分还是游戏评分类站点,都可能遇到这种麻烦,那么对于用户和站点来说,怎样的算法才能相对更好的避免水军带来的干扰呢?工具/原料豆瓣评分算法转载 2013-07-09 23:01:15 · 577 阅读 · 0 评论 -
贝叶斯算法会是破解“App刷票”的良方
近日,沸沸扬扬的360 App刷排名事件及其背后黑色产业链的浮现让公众对App Store的公正性引发质疑。尽管苹果官方已于2月7日针对其应用程序开发者发出一份带有警告意味的声明,劝告开发者不要试图操纵App Store排行榜,并表示将加大审查和处罚力度。但不难看出在App Store现有的应用排名和评分机制下,苹果很难对刷票者及其带来的负面影响做到全盘精确掌控。截至2011年5月,苹果App转载 2013-07-09 23:02:08 · 550 阅读 · 0 评论 -
淘宝搜索算法现状
淘宝搜索排序的目的是帮助用户快速的找到需要的商品。从技术上来说,就是在用户输入关键词匹配到的商品中,把最符合用户需求的商品排到第一位,其它的依次排在后续相应的位置。为了更好的实现这个目标,算法排序系统基本按三个方面来推进:一.算法模型当用户输入关键词进行搜索的时候,系统依据算法模型来给匹配到的每个商品进行实时的计算,并按照分数的大小对商品进行排序。对于好的算法模型,首先需要转载 2013-08-16 09:20:05 · 647 阅读 · 0 评论