Big Data
文章平均质量分 83
数据中国
数据中国是由一群致力于提高信息质量服务的年轻人创建的分享平台,我们期望通过这个平台学习和分享在数据质量等领域的经验。
展开
-
Spark RDD API详解之Map和Reduce
RDD是什么?RDD是Spark中的抽象数据结构类型,任何数据在Spark中都被表示为RDD。从编程的角度来看,RDD可以简单看成是一个数组。和普通数组的区别是,RDD中的数据是分区存储的,这样不同分区的数据就可以分布在不同的机器上,同时可以被并行处理。因此,Spark应用程序所做的无非是把需要处理的数据转换为RDD,然后对RDD进行一系列的变换和操作从而得到结果。本文为第一部分,将介绍S转载 2015-04-14 16:19:46 · 1006 阅读 · 0 评论 -
基于数据分析,是否自动档汽车比手动挡更耗油
Overview这是一个多元回归方程用于揭示汽车油耗和汽车属性之间的关系,试图回答常见的问题:是否自动档的汽车更费油?除了自动档这个属性,还有其他属性和汽车耗油之间的关系更大吗?原文见于RPubs.分析基于R语言,mtcars小数据集(可以扩展到更大数据集),希望对读者有所帮助。原创 2015-04-08 17:18:44 · 2507 阅读 · 1 评论 -
高准确率的机器学习实例-可穿戴设备的模式预测, 助你直接迈过高端门槛
昨天在腾讯科技频道看到一篇文章《人工智能火了 高端人才成了香饽饽》,今天又读到《第一财经周刊》的文章,提到去年(2014)可穿戴设备的投资额高达1万亿美元。在商界其实是可预期的利润引导后才会引起对人才的渴望,不过对于类似人工智能这类领域来说,人才的炼成却不像其他速成行业那样容易。最重要的技能在于编程能力的娴熟和创新的算法的实践。 作者前不久发表于 RPubs的一篇详细介绍一个高准确率的机器学习的偏应用的实例,今天把它翻译成中文(内容有扩展),以飨读者,尤其是在编程高手众多的CSDN,以期抛砖引玉,如能提高中原创 2015-05-04 16:34:48 · 2526 阅读 · 0 评论 -
推荐系统之实践篇
前言 推荐就是销售,目的就是把商品卖出去。那么如何像导购员那样把商品推荐并且销售出去呢?这里面就有两个方面的问题,一是如何精准的推荐用户想要的商品?二是如何精准的找到喜欢该商品的用户?推荐系统其实就是主要完成这个两件事。基于之前已有产品的一些业务,本文主要从第二个角度做一些实践和尝试。 本文假设是基于三方面的数据:电商A、社交网络B、传统企业C。需要解决的问题是搭建一个平台D,使传原创 2015-03-16 15:00:08 · 1526 阅读 · 1 评论 -
Hadoop性能调优总结(一)
目的随着企业要处理的数据量越来越大,Hadoop运行在越来越多的集群上,同时MapReduce由于具有高可扩展性和容错性,已经逐步广泛使用开来。因此也产生很多问题,尤其是性能方面的问题。这里从管理员角度和用户角度分别介绍Hadoop性能优化的一些体会。本文是基于Hadoop 0.20.x(包括1x),cdh 3及以上版本做介绍。(Hadoop的版本比较杂乱,具体可以看参原创 2015-05-26 08:54:20 · 19738 阅读 · 0 评论 -
Hadoop性能调优学习概述
目的随着企业要处理的数据量越来越大,Hadoop运行在越来越多的集群上,同时MapReduce由于具有高可扩展性和容错性,已经逐步广泛使用开来。因此也产生很多问题,尤其是性能方面的问题。这里从管理员角度和用户角度分别介绍Hadoop性能优化的一些体会。本文是基于Hadoop 0.20.x(包括1x),cdh 3及以上版本做介绍。(Hadoop的版本比较杂乱,具体可以看参考部分链接介绍)原创 2014-12-29 09:30:24 · 3238 阅读 · 0 评论 -
实时竞价(RTB) 介绍(基础篇)
前言:说到“实时竞价”大家一定都不陌生,那么为何现在实时竞价发展这么迅猛,当然这个主要得益于整体移动互联网环境的成熟,以及中国本地移动广告市场出现爆发式增长。那么究竟什么是实时竞价?这个流程是怎样的呢?下面会从业务角度做一个简单的介绍。 简介: RTB模式是网络广告行业新型的购买模式,与传统的PPC广告(根据用户数量计费)、CPM广告(一千次浏览计费)、CPC广告(每点击一次计原创 2015-07-08 09:56:16 · 9434 阅读 · 1 评论