自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(10)
  • 收藏
  • 关注

原创 No.9大数据入门 | MR实践之--全局排序二

接上篇:hadoop全局排序本篇通过设置partitioner,多个reducer来实现全局排序。这里的思路一个partition对应一个reduce的task,reduce的输入本来就是对key有序的,所以很自然地就产生了一个排序文件,如果是分多个partition呢,则只要确保partition是有序的就行了。比如我们的数据是这样的 aaa bbb ccc我们设定key=aaa bbb...

2019-03-14 23:19:07 346

原创 No.8大数据入门 | MR实践之--全局排序一

本篇我们简单学习下Hadoop如何使用MapReduce进行全局排序?首先MapReduce其过程本身中就有排序,那么其排序原理是怎样的?我们先了解其排序原理后,再考虑是否可以加以利用从而进行全局排序。1、mapreduce中的排序原理:hadoop中默认按照key值进行排序的,且是按照字典顺序进行排序的。我们知道mapreduce进程中数据的流动最简单的形式就是map>reduce...

2019-03-14 23:14:59 407

原创 No.7大数据入门 | MR实践之--输出数据压缩

1、当输出数据量较大时,可以使用Hadoop提供的压缩机制对数据进行压缩,减少网络传输宽带以及存储消耗。2、可以指定对map的输出结果进行压缩,也就是整个mapreduce中间过程进行压缩,也可以指定对reduce的输出结果也就是最终结果进行压缩。3、其中对map输出进行压缩主要是为了减少shuffle过程中网络传输的数据量,而对reduce输出进行压缩主要是为了减少输出结果占用的HDFS存储...

2019-03-14 23:01:51 341

原创 No.6大数据入门 | MR实践:文件分发方式-cacheArchive

上文我们介绍了两种分发文件方式,接下来我们介绍第三种:通过解压压缩包形式进行文件分发:其中white_list是以压缩包形式上传的,并且也是需要先上传至hdfs上,这里我们的压缩包如下:将其上传至hdfs上:3)-cacheArchive形式分发map.py需要重新开发,对目录进行遍历并读取压缩包文件的内容:#!/usr/bin/pythonimport osimport sy...

2019-03-14 22:57:24 508

原创 No.5大数据入门 | MR实践:文件分发方式-file/-cacheFile

上一篇文章我们在本地测试了WordCount,以及在集群跑了Wordcount实例。今天我们将介绍在集群上运行实例时的是那种文件分发方式。-file 从本地分发文件,适于文件较小的情况-cacheFile从HDFS上分发,文件可以大,需先把文件上传至HDFS-cacheArchive通过解压压缩包形式进行分发,压缩包放于本地即可1)-file形式分发map.py如下:#!/usr/bi...

2019-03-14 22:54:40 758

原创 No.4大数据入门 | MR实践:WordCount之本地测试与集群运行

上周我们搭建好了hadoop环境,接下来我们进行一些MapReduce实践。本次测试是对一篇英文文章进行单词计数,统计每一个单词出现的总次数并输出结果。注:图片来源:八斗学院思路如上图:→input:文章→将文章的每一行按照空格切分为列表.strip().split(’ ')→读取列表元素(单词)→对读取到的每一个单词进行标记word1 1→排序相同的单词→统计每一个单词的总...

2019-03-13 23:50:21 700

原创 No.3大数据入门 | 环境搭建:Hadoop2.0安装及配置

首先要明白:hadoop需要以下两个软件才能进行搭建hadoop-2.6.1.tar.gzjdk-8u172-linux-x64.tar.gz(上篇已介绍)一、安装Hadoop2.6.1并配置下载安装包至共享目录:cp hadoop-2.6.1.tar.gz /usr/local/src拷贝安装包;tar xvzf hadoop-2.6.1.tar.gz解压;创建临时...

2019-03-12 23:02:42 214

原创 No.2大数据入门 | 环境搭建:jdk1.8安装及环境配置

上一篇文章我们安装了虚拟机以及linux操作系统,接下来就要安装在操作系统上运作的大数据核心hadoop分布式系统基础架构!Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS,Hadoop的框架最核心的设计就是:HDFS和MapReduce:HDFS为海量的数据提供了存储,而MapReduce为海量的数据提供了计算,因此安装完hado...

2019-03-12 22:59:54 1694 1

原创 No.1大数据入门 | 环境搭建:VM、CentOS7安装及网络配置

大数据入门首先需要搭建环境,接下来的三篇文章均是环境搭建部分的内容。首先我们要安装虚拟机及linux系统一、安装虚拟机VM官网下载VM虚拟机:这里下载的VMware-workstation-full-10.0.4,好像往后的高版本需要win系统为64位,根据自己的需求下载安装。二、安装CentOS71、官网下载:我下载的是CentOS-7-x86_64-DVD-1804.iso文件。也...

2019-03-12 22:56:15 423

原创 sklearn(0.19.0)安装及错误解决

sklearn简介: sklearn是机器学习中一个常用的python第三方模块,网址如下:http://sklearn.apachecn.org/ 里面对一些常用的机器学习方法进行了封装,在进行机器学习任务时,并不需要每个人都实现所有的算法,只需要简单的调用sklearn里的模块就可以实现大多数机器学习任务。 机器学习任务通常包括分类(Classification)和回归(Regressi...

2018-08-06 21:33:33 13654 7

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除