2019年10月_茅坤宝骏氹

原创 Hadoop入门（二十四）Mapreduce的求TopK程序

一、简介求TopK是算法中最常使用到的，现在使用Mapreduce在海量数据中统计数据的求TopK。二、例子（1）实例描述给出三个文件，每个文件中都存储了若干个数值，求所有数值中的求Top 5。样例输入： 1）file1： 12379-9922）file2： ...

2019-10-20 21:50:44 848

原创 Hadoop入门（二十三）Mapreduce的求数量最大程序

一、简介在文件中统计出现最多个数的单词，将其输出到hdfs文件上。二、例子（1）实例描述给出三个文件，每个文件中都若干个单词以空白符分隔，需要统计出现最多的单词样例输入： 1）file1： M...

2019-10-20 21:36:04 447

原创 Hadoop入门（二十二）Mapreduce的求平均值程序

一、简介求平均值是统计中最常使用到的，现在使用Mapreduce在海量数据中统计数据的求平均值。二、例子（1）实例描述给出三个文件，每个文件中都存储了若干个数值，求所有数值中的求平均值。样例输入： 1）file1： 12379-9922）file2： 1...

2019-10-20 21:06:50 2801

原创 Hadoop入门（二十一）Mapreduce的求和程序

一、简介求和是统计中最常使用到的，现在使用Mapreduce在海量数据中统计数据的求和。二、例子（1）实例描述给出三个文件，每个文件中都存储了若干个数值，求所有数值中的求和。样例输入： 1）file1： 12379-9922）file2： 11223...

2019-10-20 20:48:36 3852 1

原创 Hadoop入门（二十）Mapreduce的最小值程序

一、简介最小值是统计中最常使用到的，现在使用Mapreduce在海量数据中统计数据的最小值。二、例子（1）实例描述给出三个文件，每个文件中都存储了若干个数值，求所有数值中的最小值。样例输入： 1）file1： 12379-9922）file2： 112...

2019-10-20 20:38:56 725

原创 Hadoop入门（十九）Mapreduce的最大值程序

一、简介最大值是统计中最常使用到的，现在使用Mapreduce在海量数据中统计数据的最大值。二、例子（1）实例描述给出三个文件，每个文件中都存储了若干个数值，求所有数值中的最大值。样例输入： 1）file1： 12379-9922）file2： 112...

2019-10-20 20:33:25 1481

转载漫画：什么是拜占庭将军问题

转载自漫画：什么是拜占庭将军问题什么是拜占庭将军问题？在很久很久以前，拜占庭是东罗马帝国的首都。那个时候罗马帝国国土辽阔，为了防御目的，因此每个军队都分隔很远，将军与将军之间只能靠信使传递消息。在打仗的时候，拜占庭军队内所有将军必需达成一致的共识，才能更好地赢得胜利。但是，在军队内有可能存有叛徒，扰乱将军们的决定。这时候，在已知有成员不可靠的...

2019-10-20 14:59:34 1055

转载 Oracle入门（一）之入门级知识详解

转载自Oracle入门级知识详解一.Oracle基本介绍1. 什么时候用Oracle数据库？SQL SERVER 号称百万级数据（一个表的数据），但是其实做多20万条数据超过20万条数据就用Oracle2. Oracle的版本Oracle8i/9i(internet)基于网络的；Oracle10g/11g基于网络，oracle10g/11g （grid）基于网格的，...

2019-10-20 14:59:02 859

转载好好说说Java中的常量池之Class常量池

转载自好好说说Java中的常量池之Class常量池在Java中，常量池的概念想必很多人都听说过。这也是面试中比较常考的题目之一。在Java有关的面试题中，一般习惯通过String的有关问题来考察面试者对于常量池的知识的理解，几道简单的String面试题难倒了无数的开发者。所以说，常量池是Java体系中一个非常重要的概念。谈到常量池，在Java体系中，共用三种常量池。分别是字符串常量池...

2019-10-20 14:58:07 215

转载依存句法分析的任务以及形式化定义

转载自依存句法分析的任务以及形式化定义依存句法分析的任务以及形式化定义1、依存句法分析的形式化定义在依存句法中，共同的基本假设是：句法结构本质上包含词和词对之间的关系。这种关系就是依存关系（dependency relations）。其中一个依存关系连接两个词，一个是核心词(head)一个是修饰词(dependant)。依存句法分析结果的一种典型表示形式为依存句法树。下面介绍一...

2019-10-20 14:57:16 1025

原创 Hadoop入门（十一）Mapreduce的InputFomrat各种子类

一、TextInputFormatextends FileInputFomrat<LongWritable,Text> 是默认读取文件的切分器，其内的LineRecordReader:用来读取每一行的内容， LineRecordReader:内的 nextKeyValue(){}中，key的赋值在： initialize()方法内， key=start=split.g...

2019-10-20 14:50:57 283

原创 Hadoop入门（十八）Mapreduce的倒排索引程序

一、简介"倒排索引"是文档检索系统中最常用的数据结构，被广泛地应用于全文搜索引擎。它主要是用来存储某个单词（或词组）在一个文档或一组文档中的存储位置的映射，即提供了一种根据内容来查找文档的方式。由于不是根据文档来确定文档所包含的内容，而是进行相反的操作，因而称为倒排索引（Inverted Index）。二、例子（1）实例描述通常情况下，倒排索引由一个单词（或词组）以及相关的文档...

2019-10-20 14:32:16 400

原创 Hadoop入门（十七）Mapreduce的多表关联程序

多表关联和单表关联类似，它也是通过对原始数据进行一定的处理，从其中挖掘出关心的信息1 实例描述输入是两个文件，一个代表工厂表，包含工厂名列和地址编号列；另一个代表地址表，包含地址名列和地址编号列。要求从输入数据中找出工厂名和地址名的对应关系，输出"工厂名——地址名"表样例输入如下所示：1）factory.txtfactoryname addressed Beij...

2019-10-14 00:16:42 495

原创 Hadoop入门（十六）Mapreduce的单表关联程序

"单表关联"要求从给出的数据中寻找所关心的数据，它是对原始数据所包含信息的挖掘1 实例描述给出child-parent（孩子——父母）表，要求输出grandchild-grandparent（孙子——祖父母）表样例输入：child parentTom LucyTom JackJone LucyJone ...

2019-10-13 22:01:30 773

原创 Hadoop入门（十五）Mapreduce的数据排序程序

"数据排序"是许多实际任务执行时要完成的第一项工作，比如学生成绩评比、数据建立索引等。这个实例和数据去重类似，都是先对原始数据进行初步处理，为进一步的数据操作打好基础1 实例描述对输入文件中数据进行排序。输入文件中的每行内容均为一个数字，即一个数据。要求在输出中每行有两个间隔的数字，其中，第一个代表原始数据在原始数据集中的位次，第二个代表原始数据。样例输入如下所示：1）file1 ...

2019-10-13 14:21:11 738

原创 Hadoop入门（十四）Mapreduce的数据去重程序

1 实例描述对数据文件中的数据进行去重。数据文件中的每行都是一个数据样例输入如下所示：1）file12012-3-1 a2012-3-2 b2012-3-3 c 2012-3-4 d 2012-3-5 a 2012-3-6 b2012-3-7 c2012-3-3 c 2）file22012-3-1 b2012-3-2 a2012-3-3 b2012-...

2019-10-13 12:10:43 1284

原创 Mybatis自动生成代码

项目路径E:\testdaopom.xml<build> <plugins> <plugin> <groupId>org.mybatis.generator</groupId> <artifactId>mybatis-generator-maven-plugin</artifactId...

2019-10-09 19:42:49 189

原创 Hadoop入门（十）Mapreduce高级shuffle之Sort和Group

一、排序分组概述MapReduce中排序和分组在哪里被执行第3步中需要对不同分区中的数据进行排序和分组，默认情况按照key进行排序和分组二、排序在Hadoop默认的排序算法中，只会针对key值进行排序任务：数据文件中，如果按照第一列升序排列，当第一列相同时，第二列升序排列如果当第一列相同时，求出第二列的最小值自定义排序1.封装一个自定义类型作为key...

2019-10-06 12:36:19 652

原创 Hadoop入门（七）Mapreduce高级Shuffle

一、Shuffle概述Reduce阶段三个步骤，Shuffle就是一个随机、洗牌操作Shuffle是什么针对多个map任务的输出按照不同的分区（Partition）通过网络复制到不同的reduce任务节点上，这个过程就称作为Shuffle。二、Shuffle过程（1）Map端1）在map端首先是InputSplit，在InputSplit中含有Dat...

2019-10-06 12:20:22 204

原创 Hadoop入门（八）Mapreduce高级shuffle之Partitioner

一、Partitioner概述Map阶段总共五个步骤，2就是一个分区操作哪个key到哪个Reducer的分配过程，是由Partitioner规定的。二、Hadoop内置PartitionerMapReduce的使用者通常会指定Reduce任务和Reduce任务输出文件的数量（R）。用户在中间key上使用分区函数来对数据进行分区，之后在输入到后续任务执行进程。一个默...

2019-10-06 11:41:54 261

原创 Hadoop入门（九）Mapreduce高级shuffle之Combiner

一、Combiner的出现（1）为什么需要进行Map规约操作在上述过程中，我们看到至少两个性能瓶颈：（1）如果我们有10亿个数据，Mapper会生成10亿个键值对在网络间进行传输，但如果我们只是对数据求最大值，那么很明显的Mapper只需要输出它所知道的最大值即可。这样做不仅可以减轻网络压力，同样也可以大幅度提高程序效率。总结：网络带宽严重被占降低程序效率；（2）假设使用美国...

2019-10-06 11:26:02 387

原创 Hadoop入门（十三）远程提交wordCout程序到hadoop集群

一、项目结构用到的文件有WordCount.java、core-site.xml、mapreduce-site.xml、yarn-site.xml、log4j.properties、pom.xml二、项目源码（1）WordCount.javapackage com.mk.mapreduce;import org.apache.hadoop.conf.Configur...

2019-10-06 11:10:32 216

原创 Hadoop入门（十二）Intellij IDEA远程向hadoop集群提交mapreduce作业

Intellij IDEA远程向hadoop集群提交mapreduce作业，需要依赖到hadoop的库，hadoop集群的配置信息，还有本地项目的jar包。一、软件环境（1）window本地安装hadoop软件首先将集群上的hadoop环境下载到本地，本文是在“A:\soft\hadoop-2.6.0”（2）设置环境变量HADOOP_HOMEHADOOP_HOME=A:\so...

2019-10-06 10:36:17 963

原创 Hadoop入门（六）Mapreduce

一、Mapreduce概述MapReduce是一个编程模型，用以进行大数据量的计算二、Hadoop MapReduce（1）MapReduce是什么Hadoop MapReduce是一个软件框架，基于该框架能够容易地编写应用程序，这些应用程序能够运行在由上千个商用机器组成的大集群上，并以一种可靠的，具有容错能力的方式并行地处理上TB级别的海量数据集Mapreduce的特点...

2019-10-05 20:19:30 397

原创 Hadoop入门（五）IO操作

一、HadoopIO操作意义Hadoop自带一套用于I/O的原子性的操作（不会被线程调度机制打断，一直到结束，中间不会有任何context switch）特点基于保障海量数据集的完整性和压缩性Hadoop提供了一些用于开发分布式系统的API（一些序列化操作+基于磁盘的底层数据结构）二、HDFS数据完整性用户希望储存和处理数据的时候，不会有任何损失或者损坏。Hadoop...

2019-10-04 21:10:23 778

转载 Hadoop的FileSystem.copyToLocalFile两个参数空指针异常

转载自Hadoop的FileSystem.copyToLocalFile两个参数空指针异常在网上一搜，直接改成fileSystem.copyToLocalFile（false，xx，xx，true）即可。Exception in thread "main" java.lang.NullPointerException at java.lang.ProcessBuilder.s...

2019-10-04 20:25:40 1002

原创 Hadoop入门（四）HDFS编程

一、编程环境设置编程使用到idea2018，maven（1）启动集群在window上启动vmware软件的虚拟机hadoop01，hadoop02，hadoop03。进入hadoop01虚拟机启动集群，执行命令start-dfs.sh（2）检查开发环境网络在window的命令行cmd窗口ping hadoop01的ip【192.168.150.128】，telnet...

2019-10-04 20:16:34 683

原创 Hadoop入门（三）HDFS API

一、、HDFS 常用类Configuration 配置Path 路径FileSystem 文件系统Stream 流IOUtils IO工具API文档二、类解析（1）Configuration配置文件加载顺序设置/获取参数方法（2）PathPath 常用方法（3）FileSystem创建文件...

2019-10-04 19:52:28 267

转载 Kafka面试题

转载自 Kafka面试题 Kafka的用途有哪些？使用场景如何？ Kafka具有吞吐量大简单的优点，适用于日志收集大数据实时计算等场景 Kafka中的ISR、AR又代表什么？ISR的伸缩又指什么 AR：Assigned Replicas 所有副本列表 ISR：InSync Replicas 同步副本列表 ISR expand ：有副本恢复同步状态 ISR shr...

2019-10-01 17:59:55 129

转载 Kafka面试题与答案全套整理

转载自Kafka面试题与答案全套整理1. Kafka的用途有哪些？使用场景如何？总结下来就几个字:异步处理、日常系统解耦、削峰、提速、广播如果再说具体一点例如:消息,网站活动追踪,监测指标,日志聚合,流处理,事件采集,提交日志等2. Kafka中的ISR、AR又代表什么？ISR的伸缩又指什么ISR:In-Sync Replicas 副本同步队列AR:Assigned Repl...

2019-10-01 17:57:27 3655 1

转载 2019年这50个Kafka面试题，你知道答案么

转载自2019年这50个Kafka面试题，你知道答案么Apache Kafka对于新手的面试问题：41, 42, 43, 44, 45, 47, 49Apache Kafka对于有经验的人的面试问题：46, 48Apache Kafka的受欢迎程度很高，Kafka拥有充足的就业机会和职业前景。此外，在这个时代拥有kafka知识是一条快速增长的道路。所以，在这篇文章中，我们收集了Ap...

2019-10-01 16:56:03 334

转载 Zookeeper一致性协议原理Zab

转载自Zookeeper一致性协议原理ZabZooKeeper为高可用的一致性协调框架，自然的ZooKeeper也有着一致性算法的实现，ZooKeeper使用的是ZAB协议作为数据一致性的算法， ZAB（ZooKeeper Atomic Broadcast ）全称为：原子消息广播协议；ZAB可以说是在Paxos算法基础上进行了扩展改造而来的，ZAB协议设计了支持崩溃恢复，ZooKee...

2019-10-01 10:24:50 146

原创 Zookeeper总结

一、简介ZooKeeper 是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。它是一个为分布式应用提供一致性服务的软件，提供的功能包括：配置维护、域名服务、分布式同步、组服务等。二、提供的常见服务数据发布/订阅负载均衡命名服务分布式协调/通知集群管理 Master选举分布式锁...

2019-10-01 09:56:20 295

茅坤宝骏氹的博客