2014年03月_dufman

原创 hadoop学习（七）WordCount+Block+Split+Shuffle+Map+Reduce技术详解

纯干货：通过WourdCount程序示例：详细讲解MapReduce之Block+Split+Shuffle+Map+Reduce的区别及数据处理流程。在上篇博客中简单给出了Shuffle的概念，稍提了一下split，但没有谈block。在了解Shuffle之间我们要先了解一下block与split。Shuffle给出的定义是copy，copy一片数据，这里的一片数据你可以理解成一个split数据。但数据上传到HDFS中，数据被分块，被分成一个个的block块，这就引出了什么是block，什

2014-03-24 01:04:10 5886 2

原创 hadoop学习（六）WordCount示例深度学习MapReduce过程（1）

本篇博客主要是想通过一个简单的Wordcount程序，来认识Hadoop，并深入了解MapReduce的详细过程。在Thinking in BigDate（八）大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解文中我们已经很大概梳理一下，Hadoop内部集群架构，并对MapReduce也有初步的了解，这里我们以WourdCount程序来深入的探讨MapReduce的过程。通过对WourdCount的介绍示例，总结Map、Reduce的整个过程。大致把整个

2014-03-22 18:15:31 6054

原创 hadoop学习（五）Hadoop2.2.0完全分布式安装详解（1）

如果你决定花点时间去读这篇文章了，请大家仔细读一下，因为每一个点，我们都在上面耽误了一些时间，梳理一下，大家如果遇到相应的问题，也算给大家提供了一个解决方案。前言在寒假前的一段时间，开始调研Hadoop2.2.0搭建过程,当时苦于没有机器，只是在3台笔记本上，简单跑通一些数据。一转眼一两个月过去了，有些东西对已经忘了。现在学校这边实验室申请下来了，分了10台机器（4G+500G），这足够我们玩的了。开始搭建Hadoop2.2.0分布式集群，也趁着这个机会把整个流程梳理一下。在很多博客中有关于

2014-03-20 17:59:22 4315 2

原创 Thinking in BigData（14）大数据之DM经典模型（5）

数据挖掘与统计学之间的区别，我在上面的一篇博客中细细谈到过，这里不多赘述。实际上，所有的数据挖掘技术都是以概率论和统计学为基础的。下面我们将探讨如何用模型来表示简单的、描述性的统计数据。如果我们可以描述所要找的事物，那么想要找到它就会变得很容易。这就是相似度模型的来历——某事物与所要寻找的事物越相似，其得分就越高。主要介绍：相似度模型、表查询模型、RFM、朴素贝叶斯模型、线性回归、多元回归、逻辑回归分析等模型

2014-03-09 23:24:44 7061 2

原创 Thinking in BigDate（13）大数据之DM经典模型（4）

数据挖掘与统计学之间的区别，我在上面的一篇博客中细细谈到过，这里不多赘述。实际上，所有的数据挖掘技术都是以概率论和统计学为基础的。下面我们将探讨如何用模型来表示简单的、描述性的统计数据。如果我们可以描述所要找的事物，那么想要找到它就会变得很容易。这就是相似度模型的来历——某事物与所要寻找的事物越相似，其得分就越高。主要介绍：相似度模型、表查询模型、RFM、朴素贝叶斯模型、线性回归、多元回归、逻辑回归分析等模型

2014-03-08 09:42:07 4833

原创 Thinking in BigData（12）大数据之有指导数据挖掘方法模型序（3）

数据挖掘的目的，就是从数据中找到更多的优质用户。接着上篇博客继续探讨有指导数据挖掘方法模型。什么是有指导的数据挖掘方法模型，以及数据挖掘如何构建模型。在构建一个有指导的数据挖掘模型，首先要理解和定义一些模型试图估计的目标变量。一个典型的案例，二元响应模型，如为直接邮寄和电子邮件营销活动选择客户的模型。模型的构建选择历史客户数据，这些客户响应了以前类似的活动。有指导数据挖掘的目的就是找到更多类似的客户，以提高未来活动的响应。这构造有指导的数据挖掘模型的过程中，首先要定义模型的结构和目标。二、增加响应建模。三、

2014-03-07 11:13:59 3559

原创 Thinking in BigData（11）大数据之有指导数据挖掘方法模型序（2）

数据挖掘的目的，就是从数据中找到更多的优质用户。接着上篇博客继续探讨有指导数据挖掘方法模型。什么是有指导的数据挖掘方法模型，以及数据挖掘如何构建模型。在构建一个有指导的数据挖掘模型，首先要理解和定义一些模型试图估计的目标变量。一个典型的案例，二元响应模型，如为直接邮寄和电子邮件营销活动选择客户的模型。模型的构建选择历史客户数据，这些客户响应了以前类似的活动。有指导数据挖掘的目的就是找到更多类似的客户，以提高未来活动的响应。这构造有指导的数据挖掘模型的过程中，首先要定义模型的结构和目标。二、增加响应建模。三、

2014-03-06 12:40:27 3379

原创 Thinking in BigData（十）大数据之数据挖掘技术（1）

我们的定位，是将传统数据挖掘的数据转移到达数据平台上去处理，去节省时间，节省资源。但问题是，当我们没有这么大的数据，或我们又这么大数据，我们应该从哪一步入手。这就是我们接下来的几篇博客，要探讨的问题。也是大数据的核心：数据挖掘。从头至尾我们都脱离不了数据挖掘。其实从大学到现在一直都接触数据挖掘，但是我们不关心是什么是数据挖掘，我们关心的是我们如何通过数据挖掘过程中找到我们需要的东西，而我们更关心的是这个过程是什么？如何开始？作为初学者的概念梳理是很有必要的。如果是大牛，这些博客就略过吧。

2014-03-05 23:30:17 5497

原创 Thinking in BigData（九）大数据hadoop集群下离线数据存储和挖掘架构

基于大数据hadoop集群下离线数据存储和挖掘分析架构：可以分为五个层次：1、数据存储层；2、集群架构层；3、分布式计算引擎层；4、算法合成层；5、数据可视化层；五个层次，组成了，如何把基于传统数据挖掘过程，移植到Hadoop集群中。还有重要的一点，说了这么多废话，其实就是为了引出，基于传统离线数据存储和挖掘架构图。这是为我们自己接下来的工作梳理好要做的内容，提供方向。在五个核心的范畴中，没有过多的涉及细节，只是提供方案，提供方向。

2014-03-03 16:37:03 6223 3

yczws1的专栏