- 博客(5)
- 收藏
- 关注
转载 MapReduce
倒排索引倒排索引就是关键词到文档的映射。 “倒排索引”是文档检索系统中最常用的数据结构,被广泛地应用于全文搜索引擎。它主要是用来存储某个单词(或词组)在一个文档或一组文档中的存储位置的映射,即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容,而是进行相反的操作,因而称为倒排索引(Inverted Index)。二次排序1、在map阶段,使用job.set
2018-01-31 08:39:27 219
转载 Mapreduce概述
Mapreduce概述什么是Mapreduce Hadoop MapReduce是一个软件框架,基于该框架能够容易地编写应用程序,这些应用程序能够运行在由上千个商用机器组成的大集群上,并以一种可靠的,具有容错能力的方式并行地处理上TB级别的海量数据集Mapreduce的特点 1、软件框架 2、并行处理 3、可靠且容错 4、大规模集群 5、海量数据集Mapreduce工作机制
2018-01-27 19:14:19 582
转载 大数据分布式系统涉及的一些基本概念(二)
大数据分布式系统涉及的一些基本概念(二)hdfs架构元数据块数据块读写策略hdfs架构HDFS 采用Master/Slave的架构来存储数据,这种架构主要由四个部分组成,分别为HDFS Client、NameNode、DataNode和Secondary NameNode。一个hdfs cluster包含一个NameNode和若干的DataNode,NameNod
2018-01-24 21:00:44 416
转载 大数据分布式系统涉及的基本概念
大数据分布式系统涉及的基本概念CAP理论和BASE理论数据分割Primary-secondary协议paxos协议一、CAP理论和BASE理论1、CAP理论 一个分布式系统最多只能同时满足一致性(Consistency)、可用性(Availability)和分区容错性(Partition tolerance)这三项中的两项。 一致性指“all nodes see the same d
2018-01-23 19:18:27 1892
转载 大数据的一些基本概念
一、什么是大数据?大数据的特点? 大数据(big data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据的5V特点(IBM提出):Volume(大量)、Velocity(高速)、Variety(多样)、Value(低价值密度)、Veracit
2018-01-22 19:28:37 9116
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人