- 博客(7)
- 资源 (20)
- 收藏
- 关注
转载 揭秘腾讯大数据之平台综述篇
摘要:腾讯业务产品线众多,拥有海量的活跃用户,每天线上产生的数据超乎想象。特别是随着传统业务增长放缓,以及移动互联网时代的精细化运营,如何从大数据中获取高价值,已经成为大家关心的焦点问题。4月12日,在腾讯分享日的大数据分论坛上腾讯首次对外展现了自己的大数据平台,受到外界的普遍关注,后续我们将持续为大家分享腾讯大数据的方方面面。本篇为综述篇,针对整体情况做概要性的介绍,后续将会有更详细
2014-08-14 17:24:43 1824
原创 Hadoop的HDFS和Map/Reduce
HDFSHDFS是一个具有高度容错性的分布式文件系统,适合部署在廉价的机器上,它具有以下几个特点:1)适合存储非常大的文件2)适合流式数据读取,即适合“只写一次,读多次”的数据处理模式3)适合部署在廉价的机器上但HDFS不适合以下场景(任何东西都要分两面看,只有适合自己业务的技术才是真正的好技术):1)不适合存储大量的小文件,因为受Namenode内
2014-08-14 15:53:36 1549
转载 腾讯大规模Hadoop集群实践
摘要:TDW是腾讯最大的离线数据处理平台。本文主要从需求、挑战、方案和未来计划等方面,介绍了TDW在建设单个大规模集群中采取的JobTracker分散化和NameNode高可用两个优化方案。TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控性差的局限,并且根据
2014-08-14 14:35:07 1400
转载 奇异值分解(SVD) --- 几何意义
PS:一直以来对SVD分解似懂非懂,此文为译文,原文以细致的分析+大量的可视化图形演示了SVD的几何意义。能在有限的篇幅把这个问题讲解的如此清晰,实属不易。原文举了一个简单的图像处理问题,简单形象,真心希望路过的各路朋友能从不同的角度阐述下自己对SVD实际意义的理解,比如 个性化推荐中应用了SVD,文本以及Web挖掘的时候也经常会用到SVD。原文:We recommend a sing
2014-08-12 21:35:27 820
转载 Linux下反斜杠号"\"引发的思考
Linux下反斜杠号"\"引发的思考 今天在检查home目录时发现有一个名为“\”的文件,觉得很奇怪,从来没见过,就准备用Vim打开看看,很自然地输入命令查看一下,结果居然打不开。ubuntu@ubuntu:~$ vi \> ubuntu@ubuntu:~$ 稍微思考了一下就明白了,不是打不开,问题出在这个文件名“ \ ”上面。 反斜线符号“
2014-08-08 15:03:09 7448
转载 Least Angle Regression
背景知识最小角回归和模型选择比较像,是一个逐步的过程,每一步都选择一个相关性最大的特征,总的运算步数只和特征的数目有关,和训练集的大小无关。最小角回归训练时的输入为特征矩阵 X={X1,X2,...,XP},和期输出向量Y={y1,y2,...,yN},Xi 是长度为N的矩阵,N表示训练集的大小,P则是特征的数目。还有一点需要注意的是,向量Xi 和 Y 都是正则化之后的向量,即它们的元素的
2014-08-07 13:56:31 742
转载 局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍
局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍本文主要介绍一种用于海量高维数据的近似最近邻快速查找技术——局部敏感哈希(Locality-Sensitive Hashing, LSH),内容包括了LSH的原理、LSH哈希函数集、以及LSH的一些参考资料。一、局部敏感哈希LSH在很多应用领域中,我们面对和需要处理
2014-08-03 16:38:36 1130
The Google file system(免积分下载)
2014-01-04
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人