淘宝大数据产品解析
文章平均质量分 92
豹先生_MR-BAO
做中国云计算导航人~~~~~
展开
-
淘宝大数据产品解析之淘宝数据魔方技术架构(1)
淘宝网拥有国内最具商业价值的海量数据。截至当前,每天有超过30亿的店铺、商品浏览记录,10亿在线商品数,上千万的成交、收藏和评价数据。如何从这些数据中挖掘出真正的商业价值,进而帮助淘宝、商家进行企业的数据化运营,帮助消费者进行理性的购物决策,是淘宝数据平台与产品部的使命。为此,我们进行了一系列数据产品的研发,比如为大家所熟知的量子统计、数据魔方和淘宝指数等。尽管从业务层面来讲,数据产品的研发难原创 2013-04-02 18:30:55 · 3240 阅读 · 0 评论 -
淘宝大数据产品解析之基于storm引擎的虫洞系统
虫洞系统是吸星大法项目衍生出来实时计算的基础平台。解析:虫洞系统是基于storm为基础的项目,牵扯到了淘宝自己的应用组件跟storm的整合,应用于实时计算领域这是独立于云梯的另一个大的平台系统,并且方向不同,在这做个简单的应用场景分析虫洞:实时计算,比如当天的流量分析、活动分析、个性化推荐对实时性要求比较高的需求云梯:离线分析,主要应用于离线数据统计,数据挖掘,并且很多分析数据是要原创 2013-04-13 17:03:10 · 2168 阅读 · 0 评论 -
淘宝大数据解析之timetunnel
1. 下载安装JDK。本文使用的是jdk-7u4-linux-i586.tar.gz。2. 下载apache-maven-3.0.4-bin.tar.gz,解压到目标文件夹:root@ubuntu:/usr/local# tar zvxf apache-maven-3.0.4-bin.tar.gz设置环境变量:root@ubuntu:~# vim /etc/profile在文件原创 2013-04-13 15:17:19 · 1946 阅读 · 0 评论 -
淘宝大数据产品解析之搜索应用平台nimitz介绍
尼米兹(Nimitz)英文原意是航空母舰的意思。在dump中心,是由道凡发起的一个项目,目标是希望nimitz能成为各个搜索小应用提供一个综合平台,可以快速部署各种中小型的搜索引擎服务,可以快速对接淘宝的各个业务库,快速开发海量数据数据的离线处理程序,BUILD索引,方便运维,高可用性。解析:nimitz显然不是淘宝的搜索引擎,是为外部开发者提供的统一索引创建平台,降低与淘宝对接的开发成本。原创 2013-04-13 18:06:31 · 1623 阅读 · 0 评论 -
揭秘淘宝286亿海量图片存储与处理架构
8月27日下午,在IT168系统架构师大会存储与系统架构分论坛上,淘宝网技术委员会主席,淘宝网核心工程师章文嵩向我们详细介绍了淘宝网图片处理与存储系统的架构。章文嵩博士的演讲日程包括了淘宝的整个系统架构、淘宝图片存储系统架构,淘宝网独立开发的TFS集群文件系统,前端CDN系统以及淘宝网在节能服务器方面的应用和探索。LVS创始人,淘宝网技术委员会主席,淘宝网核心工程师章文嵩先生 本文侧转载 2013-10-09 19:15:37 · 1508 阅读 · 0 评论 -
如意淘商品推荐技术介绍之二:高级技术
2013-07-31阿里技术嘉年华 作者:亦飞 (一淘及搜索事业部-搜索技术-算法技术-文本搜索技术)本文将介绍如意淘商品推荐的高级技术,也是我们获得PV点击率翻倍的关键技术,主要是商品聚类、Re-ranking和点击反馈。一、商品聚类 为什么要做商品聚类?不是因为数据稀疏性的问题,上一篇文章中挖掘到的商品数据字典虽只有转载 2013-10-12 11:15:17 · 2419 阅读 · 0 评论 -
cap理论
一、概述 Eric Brewer 教授提出了非常著名的CAP 理论,后人也论证了CAP 理论的正确性。 CAP理论指出:一个分布式系统不可能同时满足一致性(Consistency),可用性(Availibility) 和分区容忍性(Partition Tolerance)这三个需求。最多只能同时满足其中的两个。 二、C、A、P的定义 1,一致性(Consistency):转载 2013-11-11 10:00:24 · 1278 阅读 · 0 评论