自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 资源 (20)
  • 收藏
  • 关注

转载 揭秘腾讯大数据之平台综述篇

摘要:腾讯业务产品线众多,拥有海量的活跃用户,每天线上产生的数据超乎想象。特别是随着传统业务增长放缓,以及移动互联网时代的精细化运营,如何从大数据中获取高价值,已经成为大家关心的焦点问题。4月12日,在腾讯分享日的大数据分论坛上腾讯首次对外展现了自己的大数据平台,受到外界的普遍关注,后续我们将持续为大家分享腾讯大数据的方方面面。本篇为综述篇,针对整体情况做概要性的介绍,后续将会有更详细

2014-08-14 17:24:43 1824

原创 Hadoop的HDFS和Map/Reduce

HDFSHDFS是一个具有高度容错性的分布式文件系统,适合部署在廉价的机器上,它具有以下几个特点:1)适合存储非常大的文件2)适合流式数据读取,即适合“只写一次,读多次”的数据处理模式3)适合部署在廉价的机器上但HDFS不适合以下场景(任何东西都要分两面看,只有适合自己业务的技术才是真正的好技术):1)不适合存储大量的小文件,因为受Namenode内

2014-08-14 15:53:36 1549

转载 腾讯大规模Hadoop集群实践

摘要:TDW是腾讯最大的离线数据处理平台。本文主要从需求、挑战、方案和未来计划等方面,介绍了TDW在建设单个大规模集群中采取的JobTracker分散化和NameNode高可用两个优化方案。TDW(Tencent distributed Data Warehouse,腾讯分布式数据仓库)基于开源软件Hadoop和Hive进行构建,打破了传统数据仓库不能线性扩展、可控性差的局限,并且根据

2014-08-14 14:35:07 1400

转载 奇异值分解(SVD) --- 几何意义

PS:一直以来对SVD分解似懂非懂,此文为译文,原文以细致的分析+大量的可视化图形演示了SVD的几何意义。能在有限的篇幅把这个问题讲解的如此清晰,实属不易。原文举了一个简单的图像处理问题,简单形象,真心希望路过的各路朋友能从不同的角度阐述下自己对SVD实际意义的理解,比如 个性化推荐中应用了SVD,文本以及Web挖掘的时候也经常会用到SVD。原文:We recommend a sing

2014-08-12 21:35:27 820

转载 Linux下反斜杠号"\"引发的思考

Linux下反斜杠号"\"引发的思考  今天在检查home目录时发现有一个名为“\”的文件,觉得很奇怪,从来没见过,就准备用Vim打开看看,很自然地输入命令查看一下,结果居然打不开。ubuntu@ubuntu:~$ vi \> ubuntu@ubuntu:~$  稍微思考了一下就明白了,不是打不开,问题出在这个文件名“ \ ”上面。  反斜线符号“

2014-08-08 15:03:09 7448

转载 Least Angle Regression

背景知识最小角回归和模型选择比较像,是一个逐步的过程,每一步都选择一个相关性最大的特征,总的运算步数只和特征的数目有关,和训练集的大小无关。最小角回归训练时的输入为特征矩阵 X={X1,X2,...,XP},和期输出向量Y={y1,y2,...,yN},Xi 是长度为N的矩阵,N表示训练集的大小,P则是特征的数目。还有一点需要注意的是,向量Xi 和 Y 都是正则化之后的向量,即它们的元素的

2014-08-07 13:56:31 742

转载 局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍

局部敏感哈希(Locality-Sensitive Hashing, LSH)方法介绍本文主要介绍一种用于海量高维数据的近似最近邻快速查找技术——局部敏感哈希(Locality-Sensitive Hashing, LSH),内容包括了LSH的原理、LSH哈希函数集、以及LSH的一些参考资料。一、局部敏感哈希LSH在很多应用领域中,我们面对和需要处理

2014-08-03 16:38:36 1130

The Google file system(免积分下载)

The Google file system,一个分布式文件系统,隐藏下层负载均衡,冗余复制等细节,对上层程序提供一个统一的文件系统API接口

2014-01-04

CentOS下Hadoop-0.20.2集群配置文档 免积分下载

CentOS下Hadoop-0.20.2集群配置文档 免积分下载

2013-12-05

HMM最佳学习范例

遇到这一篇文档之前没有碰到过能把“隐马尔科夫模型”讲的这么清晰透彻的,HMM学习最佳范例做到了

2013-11-18

集体智慧编程(源代码)

集体智慧编程书中所有章节的源代码,请注意代码为Python编写!

2013-11-03

新浪微博数据集

一个新浪新浪微博内容数据集的压缩包,进行数据挖掘分析只用。

2013-10-30

自学Matlab必备的60个程序代码

matlab自学必备利器,这些源代码看懂用自己实践一遍之后,以后上手其他的就容易多了!

2012-10-28

matlab在矩阵中的应用

matlab最强大的地方就是对矩阵的运算能力强,课件对这一强大基本的功能做了基础的介绍!

2012-10-28

matlab基础课件

对matlab的使用做了一些基础性的介绍,看完之后基本上算是入门了!

2012-10-28

《MATLAB程序设计教程》源代码

对matlab的使用做了一下入门性的介绍,并包含大部分常用的源代码!

2012-10-28

visio 2007指南

这是微软发布的官方visio指南,清新简洁,pdf的,一共37页,几个小时就能把visio搞的差不多。

2012-08-23

visio教程(pdf版)

visio教程,完整清新pdf版呈上,基本上可以在短时间内快速掌握visio基本技能!

2012-08-23

现代无线通信

西蒙 赫金的现代无线通信的中文版,经典程度就不解释了

2012-08-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除