自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 hadoop学习(七)WordCount+Block+Split+Shuffle+Map+Reduce技术详解

纯干货:通过WourdCount程序示例:详细讲解MapReduce之Block+Split+Shuffle+Map+Reduce的区别及数据处理流程。 在上篇博客中简单给出了Shuffle的概念,稍提了一下split,但没有谈block。在了解Shuffle之间我们要先了解一下block与split。Shuffle给出的定义是copy,copy一片数据,这里的一片数据你可以理解成一个split数据。但数据上传到HDFS中,数据被分块,被分成一个个的block块,这就引出了什么是block,什

2014-03-24 01:04:10 5886 2

原创 hadoop学习(六)WordCount示例深度学习MapReduce过程(1)

本篇博客主要是想通过一个简单的Wordcount程序,来认识Hadoop,并深入了解MapReduce的详细过程。在Thinking in BigDate(八)大数据Hadoop核心架构HDFS+MapReduce+Hbase+Hive内部机理详解 文中我们已经很大概梳理一下,Hadoop内部集群架构,并对MapReduce也有初步的了解,这里我们以WourdCount程序来深入的探讨MapReduce的过程。 通过对WourdCount的介绍示例,总结Map、Reduce的整个过程。大致把整个

2014-03-22 18:15:31 6054

原创 hadoop学习(五)Hadoop2.2.0完全分布式安装详解(1)

如果你决定花点时间去读这篇文章了,请大家仔细读一下,因为每一个点,我们都在上面耽误了一些时间,梳理一下,大家如果遇到相应的问题,也算给大家提供了一个解决方案。前言 在寒假前的一段时间,开始调研Hadoop2.2.0搭建过程,当时苦于没有机器,只是在3台笔记本上,简单跑通一些数据。一转眼一两个月过去了,有些东西对已经忘了。现在学校这边实验室申请下来了,分了10台机器(4G+500G),这足够我们玩的了。开始搭建Hadoop2.2.0分布式集群,也趁着这个机会把整个流程梳理一下。在很多博客中有关于

2014-03-20 17:59:22 4315 2

原创 Thinking in BigData(14)大数据之DM经典模型(5)

数据挖掘与统计学之间的区别,我在上面的一篇博客中细细谈到过,这里不多赘述。实际上,所有的数据挖掘技术都是以概率论和统计学为基础的。 下面我们将探讨如何用模型来表示简单的、描述性的统计数据。如果我们可以描述所要找的事物,那么想要找到它就会变得很容易。这就是相似度模型的来历——某事物与所要寻找的事物越相似,其得分就越高。 主要介绍:相似度模型、表查询模型、RFM、朴素贝叶斯模型、线性回归、多元回归、逻辑回归分析等模型

2014-03-09 23:24:44 7061 2

原创 Thinking in BigDate(13)大数据之DM经典模型(4)

数据挖掘与统计学之间的区别,我在上面的一篇博客中细细谈到过,这里不多赘述。实际上,所有的数据挖掘技术都是以概率论和统计学为基础的。 下面我们将探讨如何用模型来表示简单的、描述性的统计数据。如果我们可以描述所要找的事物,那么想要找到它就会变得很容易。这就是相似度模型的来历——某事物与所要寻找的事物越相似,其得分就越高。 主要介绍:相似度模型、表查询模型、RFM、朴素贝叶斯模型、线性回归、多元回归、逻辑回归分析等模型

2014-03-08 09:42:07 4833

原创 Thinking in BigData(12)大数据之有指导数据挖掘方法模型序(3)

数据挖掘的目的,就是从数据中找到更多的优质用户。接着上篇博客继续探讨有指导数据挖掘方法模型。什么是有指导的数据挖掘方法模型,以及数据挖掘如何构建模型。在构建一个有指导的数据挖掘模型,首先要理解和定义一些模型试图估计的目标变量。一个典型的案例,二元响应模型,如为直接邮寄和电子邮件营销活动选择客户的模型。模型的构建选择历史客户数据,这些客户响应了以前类似的活动。有指导数据挖掘的目的就是找到更多类似的客户,以提高未来活动的响应。这构造有指导的数据挖掘模型的过程中,首先要定义模型的结构和目标。二、增加响应建模。三、

2014-03-07 11:13:59 3559

原创 Thinking in BigData(11)大数据之有指导数据挖掘方法模型序(2)

数据挖掘的目的,就是从数据中找到更多的优质用户。接着上篇博客继续探讨有指导数据挖掘方法模型。什么是有指导的数据挖掘方法模型,以及数据挖掘如何构建模型。在构建一个有指导的数据挖掘模型,首先要理解和定义一些模型试图估计的目标变量。一个典型的案例,二元响应模型,如为直接邮寄和电子邮件营销活动选择客户的模型。模型的构建选择历史客户数据,这些客户响应了以前类似的活动。有指导数据挖掘的目的就是找到更多类似的客户,以提高未来活动的响应。这构造有指导的数据挖掘模型的过程中,首先要定义模型的结构和目标。二、增加响应建模。三、

2014-03-06 12:40:27 3379

原创 Thinking in BigData(十)大数据之数据挖掘技术(1)

我们的定位,是将传统数据挖掘的数据转移到达数据平台上去处理,去节省时间,节省资源。但问题是,当我们没有这么大的数据,或我们又这么大数据,我们应该从哪一步入手。这就是我们接下来的几篇博客,要探讨的问题。也是大数据的核心:数据挖掘。从头至尾我们都脱离不了数据挖掘。其实从大学到现在一直都接触数据挖掘,但是我们不关心是什么是数据挖掘,我们关心的是我们如何通过数据挖掘过程中找到我们需要的东西,而我们更关心的是这个过程是什么?如何开始? 作为初学者的概念梳理是很有必要的。如果是大牛,这些博客就略过吧。

2014-03-05 23:30:17 5497

原创 Thinking in BigData(九)大数据hadoop集群下离线数据存储和挖掘架构

基于大数据hadoop集群下离线数据存储和挖掘分析架构: 可以分为五个层次:1、数据存储层;2、集群架构层;3、分布式计算引擎层;4、算法合成层;5、数据可视化层;五个层次,组成了,如何把基于传统数据挖掘过程,移植到Hadoop集群中。还有重要的一点,说了这么多废话,其实就是为了引出,基于传统离线数据存储和挖掘架构图。这是为我们自己接下来的工作梳理好要做的内容,提供方向。 在五个核心的范畴中,没有过多的涉及细节,只是提供方案,提供方向。

2014-03-03 16:37:03 6223 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除