滚滚红尘125-CSDN博客

原创 No.9大数据入门 | MR实践之--全局排序二

接上篇：hadoop全局排序本篇通过设置partitioner,多个reducer来实现全局排序。这里的思路一个partition对应一个reduce的task，reduce的输入本来就是对key有序的，所以很自然地就产生了一个排序文件，如果是分多个partition呢，则只要确保partition是有序的就行了。比如我们的数据是这样的 aaa bbb ccc我们设定key=aaa bbb...

2019-03-14 23:19:07 346

原创 No.8大数据入门 | MR实践之--全局排序一

本篇我们简单学习下Hadoop如何使用MapReduce进行全局排序？首先MapReduce其过程本身中就有排序，那么其排序原理是怎样的？我们先了解其排序原理后，再考虑是否可以加以利用从而进行全局排序。1、mapreduce中的排序原理：hadoop中默认按照key值进行排序的，且是按照字典顺序进行排序的。我们知道mapreduce进程中数据的流动最简单的形式就是map&gt;reduce...

2019-03-14 23:14:59 407

1、当输出数据量较大时，可以使用Hadoop提供的压缩机制对数据进行压缩，减少网络传输宽带以及存储消耗。2、可以指定对map的输出结果进行压缩，也就是整个mapreduce中间过程进行压缩，也可以指定对reduce的输出结果也就是最终结果进行压缩。3、其中对map输出进行压缩主要是为了减少shuffle过程中网络传输的数据量，而对reduce输出进行压缩主要是为了减少输出结果占用的HDFS存储...

2019-03-14 23:01:51 341

原创 No.6大数据入门 | MR实践：文件分发方式-cacheArchive

上文我们介绍了两种分发文件方式，接下来我们介绍第三种：通过解压压缩包形式进行文件分发：其中white_list是以压缩包形式上传的，并且也是需要先上传至hdfs上，这里我们的压缩包如下：将其上传至hdfs上：3）-cacheArchive形式分发map.py需要重新开发，对目录进行遍历并读取压缩包文件的内容：#!/usr/bin/pythonimport osimport sy...

2019-03-14 22:57:24 508

原创 No.5大数据入门 | MR实践：文件分发方式-file/-cacheFile

上一篇文章我们在本地测试了WordCount，以及在集群跑了Wordcount实例。今天我们将介绍在集群上运行实例时的是那种文件分发方式。-file 从本地分发文件，适于文件较小的情况-cacheFile从HDFS上分发，文件可以大，需先把文件上传至HDFS-cacheArchive通过解压压缩包形式进行分发，压缩包放于本地即可1）-file形式分发map.py如下：#!/usr/bi...

2019-03-14 22:54:40 758

原创 No.4大数据入门 | MR实践：WordCount之本地测试与集群运行

上周我们搭建好了hadoop环境，接下来我们进行一些MapReduce实践。本次测试是对一篇英文文章进行单词计数，统计每一个单词出现的总次数并输出结果。注：图片来源：八斗学院思路如上图：→input:文章→将文章的每一行按照空格切分为列表.strip().split(’ ')→读取列表元素（单词）→对读取到的每一个单词进行标记word1 1→排序相同的单词→统计每一个单词的总...

2019-03-13 23:50:21 700

原创 No.3大数据入门 | 环境搭建：Hadoop2.0安装及配置

首先要明白：hadoop需要以下两个软件才能进行搭建hadoop-2.6.1.tar.gzjdk-8u172-linux-x64.tar.gz（上篇已介绍）一、安装Hadoop2.6.1并配置下载安装包至共享目录：cp hadoop-2.6.1.tar.gz /usr/local/src拷贝安装包；tar xvzf hadoop-2.6.1.tar.gz解压；创建临时...

2019-03-12 23:02:42 214

原创 No.2大数据入门 | 环境搭建：jdk1.8安装及环境配置

上一篇文章我们安装了虚拟机以及linux操作系统，接下来就要安装在操作系统上运作的大数据核心hadoop分布式系统基础架构！Hadoop实现了一个分布式文件系统(Hadoop Distributed File System)，简称HDFS，Hadoop的框架最核心的设计就是:HDFS和MapReduce：HDFS为海量的数据提供了存储，而MapReduce为海量的数据提供了计算，因此安装完hado...

2019-03-12 22:59:54 1694 1

原创 No.1大数据入门 | 环境搭建：VM、CentOS7安装及网络配置

大数据入门首先需要搭建环境，接下来的三篇文章均是环境搭建部分的内容。首先我们要安装虚拟机及linux系统一、安装虚拟机VM官网下载VM虚拟机：这里下载的VMware-workstation-full-10.0.4，好像往后的高版本需要win系统为64位，根据自己的需求下载安装。二、安装CentOS71、官网下载：我下载的是CentOS-7-x86_64-DVD-1804.iso文件。也...

2019-03-12 22:56:15 423

原创 sklearn（0.19.0）安装及错误解决

sklearn简介： sklearn是机器学习中一个常用的python第三方模块，网址如下：http://sklearn.apachecn.org/ 里面对一些常用的机器学习方法进行了封装，在进行机器学习任务时，并不需要每个人都实现所有的算法，只需要简单的调用sklearn里的模块就可以实现大多数机器学习任务。机器学习任务通常包括分类（Classification）和回归（Regressi...

2018-08-06 21:33:33 13654 7

weixin_42385668的博客