自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(5)
  • 收藏
  • 关注

转载 MapReduce

倒排索引倒排索引就是关键词到文档的映射。 “倒排索引”是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted Index)。二次排序1、在map阶段,使用job.set

2018-01-31 08:39:27 219

转载 Mapreduce概述

Mapreduce概述什么是Mapreduce Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集Mapreduce的特点 1、软件框架 2、并行处理 3、可靠且容错 4、大规模集群 5、海量数据集Mapreduce工作机制

2018-01-27 19:14:19 582

转载 大数据分布式系统涉及的一些基本概念(二)

大数据分布式系统涉及的一些基本概念(二)hdfs架构元数据块数据块读写策略hdfs架构HDFS 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。一个hdfs cluster包含一个NameNode和若干的DataNode,NameNod

2018-01-24 21:00:44 416

转载 大数据分布式系统涉及的基本概念

大数据分布式系统涉及的基本概念CAP理论和BASE理论数据分割Primary-secondary协议paxos协议一、CAP理论和BASE理论1、CAP理论 一个分布式系统最多只能同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition tolerance)这三项中的两项。 一致性指“all nodes see the same d

2018-01-23 19:18:27 1892

转载 大数据的一些基本概念

一、什么是大数据?大数据的特点?      大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。     大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracit

2018-01-22 19:28:37 9116

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除