2015年02月_pinjer

09月 07月 06月 05月 04月 03月 02月 01月

转载探索推荐引擎内部的秘密系列文章

探索推荐引擎内部的秘密，第 1 部分: 推荐引擎初探探索推荐引擎内部的秘密，第 2 部分: 深入推荐引擎相关算法 - 协同过滤探索推荐引擎内部的秘密，第 3 部分: 深入推荐引擎相关算法 - 聚类

2015-02-14 16:07:43 2273

转载 Mahout推荐算法API详解与实例

Mahout推荐算法API详解基于 Apache Mahout 构建社会化推荐引擎Mahout分步式程序开发基于物品的协同过滤ItemCF

2015-02-14 16:05:48 1610

转载推荐系统开源软件列表汇总和点评

我收集和整理的目前互联网上所能找到的知名开源推荐系统(open source project for recommendation system)，并附上了个人的一些简单点评（未必全面准确），这方面的中文资料很少见，希望对国内的朋友了解掌握推荐系统有帮助陈运文SVDFeature由上海交大的同学开发的，C++语言，代码质量很高。去年我们参加KDD竞赛时用过，非常好用，而且

2015-02-14 15:59:44 796

转载推荐系统的常用算法概述

前一阵子准备毕业论文的开题，一直在看推荐系统相关的论文。对推荐系统有了一个更加清晰和理性的认识，也对推荐算法有了深入了解。借此机会总结分享一下，大家多多拍砖。推荐系统的出现　　随着互联网的发展，人们正处于一个信息爆炸的时代。相比于过去的信息匮乏，面对现阶段海量的信息数据，对信息的筛选和过滤成为了衡量一个系统好坏的重要指标。一个具有良好用户体验的系统，会将海量信息进行筛选、过滤，将用

2015-02-14 15:57:55 554

转载深度学习(Deep Learning)综述

深度学习是ML研究中的一个新的领域，它被引入到ML中使ML更接近于其原始的目标：AI。查看a brief introduction to Machine Learning for AI 和an introduction to Deep Learning algorithms. 深度学习是关于学习多个表示和抽象层次，这些层次帮助解释数据，例如图像，声音和文本。对于更多的关于深度学习算

2015-02-14 15:54:40 853

转载 Spark：一个高效的分布式计算系统

概述什么是SparkSpark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习

2015-02-12 00:19:47 778 1

转载 hadoop生态系统引见

1、Hadoop生态系统概况Hadoop是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。Hadoop的核心是HDFS和Mapreduce，hadoop2.0还包括YARN。下图为hadoop的生态系统： 2、HDFS（Hadoop分布式文件系统）源自于Google的GFS论文，发表于2003年10月，HDFS是GF

2015-02-12 00:08:42 704

转载 YARN产生背景

Hadoop1.x中的MapReduce构成图如下：在Hadoop1.x中MapReduce是Master/Slave结构，在集群中的表现形式为：1个JobTracker带多个TaskTracker；JobTracker：负责资源管理和作业调度；TaskTracker：定期向JobTracker汇报本节点的健康状况、资源使用情况以及任务的执行情况；接收来自JobTr

2015-02-11 23:48:43 1696

转载 Hadoop已经成为大数据分析平台的标配

【CSDN报道】5月29日，“2013中国·北京第一届（国际）开源大会”在北京新世纪日航酒店拉开帷幕，本次大会以大力发展并推动北京科技原创能力为宗旨，以“开源中国原创北京”为主题，通过丰富前瞻性的思想盛宴，让北京在世界科技发展新趋势下占据主动地位。下文是Hadoop专场侧记：Hadoop中国开源社区下午Hadoop专场的第一位嘉宾是来自ChinaHadoop社区负责人谢磊，他

2015-02-11 23:13:27 1289

转载 Yahoo! 的新一代大数据技术架构解析

Hadoop是当前最流行的大数据技术架构，很多大数据应用都是建立在Hadoop平台基础之上。很多人都知道Hadoop是Apache基金会的顶级开源项目，但并不是每个人都知道，在Hadoop的演进发展中，70%的贡献是来自Yahoo!公司。Yahoo!公司是Hadoop平台最大的用户、最有力的应用支持者和Hadoop商业化的重要推动者，Hadoop一直是Yahoo!公司云计算平台的核心，Ya

2015-02-11 23:09:34 1545

转载关于YARN的几篇文章推荐

1、YARN 简介（2014-12）http://www.ibm.com/developerworks/cn/data/library/bd-yarn-intro/2、Hadoop 新MapReduce 框架Yarn 详解（带有实例）（2013-1）http://www.ibm.com/developerworks/cn/opensource/os-cn-had

2015-02-11 22:57:13 699

转载基础篇:Hadoop组件与生态系统介绍

从2014年开始，大数据逐渐发展壮大起来。越来越多的公司开始使用大数据，包括日常事务管理及复杂业务方案探究。大数据已经很快地从一个被夸大的词汇转变成了一个可行的技术，无论业务规模是大还是小。　　大数据，简单来说就是存在于我们身边的大量数据，如智能终端、网络应用、社交媒体、聊天室、移动App、通讯记录、支付历史以及各种其他方式涉及到的数据。大数据技术对大量的信息进行整合、存储以及分析，数据量

2015-02-11 22:52:26 3904

转载六个超大规模Hadoop部署案例-Hadoop

据估量，到2015年，全世界一半以上的数据将涉及Hadoop--围绕这个开源平台的生态系统日益庞大，这有力地印证了这个惊人的数字。　　然而，有些人表示，虽然Hadoop是眼下热闹非凡的大数据领域最热话题，但它肯定不是可以解决数据中央和数据治理方面所有难题的灵丹妙药。考虑到这一点，我们暂且不想推测这个平台未来会怎样，也不想推测彻底改变种种数据麋集型解决方案的开源技术未来会怎样，而是关注让Ha

2015-02-11 22:50:31 3776

转载云平台的几个概念和典型平台关系对比

近期总有朋友咨询各类云平台的性能和相互关系，现整理出几个概念，希望对大家能有帮助：理解云平台要从三个层次来理解，同时考虑其是开源还是闭源的：1、IaaS(Infrastructure as a Service：基础设施即服务），代表企业有Amazon, Microsoft, VMWare, Rackspace和Red Hat。开源代表产品有：OpenStack、CloudStack、E

2015-02-11 22:48:06 13215

转载云计算大数据时代从空调到电视的演变你想到了什么？

继空调之后，电视台成为阿里云计算的下一个大数据重塑目标。3月20日下午，阿里云宣布联手新奥特、华通云数据，打造中国最大的全媒体云计算平台。该平台可以在一周内，帮助传统电视台变成多屏网络电视台，支持电脑网站、手机APP、电视机全终端流畅播放，且可以实现大数据的收集整理和运营。今年内，全国两百家电视台将接入该云计算平台。阿里云是中国罕有可以将5000台计算机合成一台“超级计算机”的云计算平

2015-02-06 17:03:22 823