自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

Oceansidexue的博客

其实是小玉雪的博客

  • 博客(11)
  • 资源 (6)
  • 收藏
  • 关注

原创 mapreduce算法之reduce侧连接

package mapreduce_join;import java.io.IOException;import java.net.URI;import java.util.HashMap;import java.util.Map;import org.apache.hadoop.conf.Configuration;import org.apache.ha

2018-01-31 08:59:29 237

原创 mapreduce算法之倒排索引

package mapreduce;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;

2018-01-31 08:56:03 389

原创 mapreduce算法之二次排序

package mapreduce;import java.net.URI;import java.io.DataInput;import java.io.DataOutput;import java.io.IOException;import java.util.StringTokenizer;import org.apache.hadoop.io.Int

2018-01-31 08:54:22 271

转载 Mapreduce的学习

Hadoop的核心是mapreduce和hdfs。mapreduce什么是mapreduce ?MapReduce是一种编程模型,用于大规模数据集的并行运算。概念”Map(映射)”和”Reduce(归约)”,是它们的主要思想,。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。 当前的软件实现是指定一个Map(映射)函数,用来把一组键值

2018-01-28 17:47:11 360

原创 Mapreduce

1.Mapreduce的策略 采用分而治之 把非常庞大的数据集,切分成非常多的独立的小分片 然后对每一个分片单独的启动一个map任务 最终通过多个map任务,并行的在多个机器上处理2.mapreduce的理念 计算向数据靠拢而不是数据向计算靠拢3.mapreduce的架构 一个master 服务器-->作业跟踪器jobTracker-->负责整个作业的调度和处理以及

2018-01-27 18:20:36 1126

原创 Hdfs简介

1.hdfs实现目标 兼容廉价的硬件设备 实现数据流的读写 支持大数据集 支持简单的文件模型 强大的跨平台特性2.HDFS的局限性 不适合低延迟数据访问 无法高效储存大量小文件 不支持多用户写入3.块的概念(整个HDFS最核心的概念) 支持面向大规模数据储存 降低分布式节点的寻址开销好处: 支持大规模文件存储 简化系统设计 适合数据备

2018-01-27 09:55:49 230

原创 hadoop的IO

1.校验和 1.写入数据节点验证 hdfs会在数据写入时计算校验和,并在读取数据时验证校验和,元数据节点负责在验证收到的数据后,储存数据及其校验和,在收到客户端数据或者复制其他的datanode时执行 2.读取数据节点验证 读取数据节点时也会进行验证,将他们与储存的校验和进行比较 客户端验证节点后,更新日志 3.数据恢复 复制完好的数

2018-01-26 19:49:59 269

原创 hadoop 面试题

2018/1/26一、简答题 1. 什么是hadoop,用hadoop来做什么?     Hadoop是一种以一种可靠、高效、可伸缩的方式进行处理,能够对大量数据进行分布式处理的系统框架。利用Hadoop能够实现文件系统的分级操作。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS按分布式处理的方式对海量数据实现创建、删除、移动或重命名等存储操作,而Ma

2018-01-26 17:56:25 1149

原创 HDFS架构及读写策略

1HDFS的架构•一个HDFS文件系统包括一个主控节点NameNode和一组DataNode从节点。–NameNode是一个主服务器,用来管理整个文件系统的命名空间和元数据,以及处理来自外界的文件访问请求。NameNode保存了文件系统的三种元数据:•1) 命名空间, 即整个分布式文件系统的目录结构;•2 ) 数据块与文件名的映射表;•3) 每个数据块副本的位置信息,每

2018-01-24 19:40:01 532

原创 linux中安装和配置jdk和hadoop环境

2018/1/24学习大数据安装了三天的软件,实在让我有点崩溃,尤其是第三天安装软件,发现前两天安装的软件全部作废了,昨天晚上完美运行的程序,今天都不可以用了,我做了一个大胆的决定,把所有的东西重新开始弄,把虚拟机里面全部的东西都移除清空,从安装linux系统开始,等了好长时间,终于安装好了,重启了一下发现输入密码居然登录不进去,一脸的黑人问号???又移除重新装,借着重新安装的时间写了这篇博客

2018-01-24 12:00:32 1602

原创 大数据概述

2018/1/221.大数据的概念:指的是所涉及的数据量规模巨大到无法通过人工,在合理的时间内达到截取,管理,处理,并整理成人类所能解读的形式的信息的数据集合,几乎无法使用大多的数据管理系统进行管理大数据的特点:volume(体量大),,variety(类型多),value(价值),velocity(速度快2.数据仓库的概念:是一个面向主题的(Subject Oriented)、集

2018-01-24 09:10:30 1507

第二期2020字节跳动面试题及解析.pdf

java面试题大全

2021-02-21

北邮数据结构课件

北邮数据结构课件,复习全面,内容广泛,可以用于平常复习也可以用于考研备考复习

2018-12-27

王道模拟题及答案

王道模拟题的电子版,可以用于考研备考,也可以用于数据结构的平常学习和复习

2018-12-27

北京邮电大学数据结构

北京邮电大学的理念期末期中考试题目,可以用于考研备考的资料

2018-12-27

数据结构算法图解

数据结构的各种算法的图解,可以在日常学习中使用也可以在考研备考时使用

2018-12-27

编译原理课程设计

完整的编译器的设计 包括前端和后台以及测试案例 测试

2018-12-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除