大数据
文章平均质量分 88
Claire_Bear7
这个作者很懒,什么都没留下…
展开
-
大数据 之 NoSQL
这篇开始学习非关系型数据库NoSQL。以前一直不明白为什么没有字段的数据库怎么还能够称作数据库,并且还取得这么大的成功。后来学习了他的发展史才明白。借用看到的一句总结 关系型数据库想把一致性、完整性、索引、CRUD都干好,但是NoSQL只关注与性能分布式相关的非功能性的东西。传统数据库的瓶颈任何一门新技术的出现都不是偶然,一定是在它本领域的应用中出现了瓶颈,学者们为了解决这种瓶颈,才会导致一门原创 2015-07-08 21:46:23 · 790 阅读 · 0 评论 -
淘宝数据魔方技术架构解析
淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何 从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲,数据产品的研发转载 2015-07-11 19:03:53 · 949 阅读 · 0 评论 -
美团推荐算法实践:机器学习重排序模型成亮点
前言推荐系统并不是新鲜的事物,在很久之前就存在,但是推荐系统真正进入人们的视野,并且作为一个重要的模块存在于各个互联网公司,还是近几年的事情。随着互联网的深入发展,越来越多的信息在互联网上传播,产生了严重的信息过载。如果不采用一定的手段,用户很难从如此多的信息流中找到对自己有价值的信息。解决信息过载有几种手段:一种是搜索,当用户有了明确的信息需求意图后,将意图转换为几个简短的词或者短语转载 2015-07-15 17:32:32 · 2512 阅读 · 0 评论 -
大数据计算框架Hadoop, Spark和MPI
今天做题,其中一道是 请简要描述一下Hadoop, Spark, MPI三种计算框架的特点以及分别适用于什么样的场景。一直想对这些大数据计算框架总结一下,只可惜太懒,一直拖着。今天就借这个机会好好学习一下。一张表 名称 发起者 语言 简介 特点 适用场景 Hadoop Yahoo工程师,Apache基金会 Java MapReduce分布式计算框架+HDF原创 2015-07-12 10:48:28 · 14174 阅读 · 1 评论 -
360方案 技术解决方案
之前有做过一个360的个性化推荐排序与点击率预估方案。很遗憾,方案最终落选于一堆清华北大的队伍中。记得当时评估人(一个很资深的大牛)问我:如果把用户分组了,不是会抹杀掉用户的一些特征吗?我当时完全答不上来。但是能够在一周内快速的做出一个方案来,这段黑暗的岁月还是值得铭记在心的。下面,就把这个方案分享一下:点击率预估 点击率预估现在普遍应用在广告投放中,因为直接与用户和利益相关,是各个企业非常重视的原创 2015-07-16 11:38:35 · 1025 阅读 · 0 评论 -
recommend
个性化程度推荐按照个性化程度从低到高可以分为:普适的/非个性化的 -> 适合一个小组的(组推荐) -> 适合当前活动的 和 持久的。输入输出输入数据主要是评分数据,包括隐式评分和显式评分两种。显式评分就是以分数或星级表示的数据,能直接表示用户的喜好,然而,由于用户往往会忽略或不愿意对之前的选择进行评分,因此,这种评分通常不是很容易获取,使得隐式评分在日常生活中更为普遍。隐式评分就是通过用户的行为(如原创 2015-07-18 21:54:42 · 591 阅读 · 0 评论 -
谷歌技术"三宝"之MapReduce
江湖传说永流传:谷歌技术有"三宝",GFS、MapReduce和大表(BigTable)!谷歌在03到06年间连续发表了三篇很有影响力的文章,分别是03年SOSP的GFS,04年OSDI的MapReduce,和06年OSDI的BigTable。SOSP和OSDI都是操作系统领域的顶级会议,在计算机学会推荐会议里属于A类。SOSP在单数年举办,而OSDI在双数年举办。那么这篇博客就来介绍一下转载 2015-07-22 10:33:29 · 683 阅读 · 0 评论