- 博客(38)
- 资源 (10)
- 收藏
- 关注
原创 HBase的优化
HBase的优化高可用在 HBase 中 Hmaster 负责监控 RegionServer 的生命周期,均衡 RegionServer 的负载,如果Hmaster 挂掉了,那么整个 HBase 集群将陷入不健康的状态,并且此时的工作状态并不会维持太久。所以 HBase 支持对 Hmaster 的高可用配置。关闭 HBase 集群 ( 如果没有开启则跳过此 步) )$ bin...
2019-05-30 15:14:14 263
原创 HBase部署与使用
HBase部署与使用概述HBase的角色HMaster功能:监控RegionServer处理RegionServer故障转移处理元数据的变更处理region的分配或移除在空闲时间进行数据的负载均衡通过Zookeeper发布自己的位置给客户端RegionServer功能:负责存储HBase的实际数据处理分配个他的Region刷新缓存到HDFS维护HLog执行压...
2019-05-30 12:17:23 1399
原创 Scala 类
Scala 类简单类和无参方法class HelloWorld { private val value = 0 def increment(): Int = value + 1 def current(): Int = value def printValue: Unit = println(value)}val helloWorld = new HelloWor...
2019-05-30 00:51:36 286
原创 Scala高阶函数
高阶函数作为参数的函数函数可以作为参数进行传递def plus(a: Int) = a + 10//Array(11, 12, 13)Array(1, 2, 3).map(plus(_))匿名函数val array = Array(1, 2, 3)//Array(11, 12, 13)array.map((x: Int) => x + 10)//Array(11...
2019-05-30 00:21:18 312
原创 模式匹配
模式匹配switch语句//switchvar sign = 0for (i <- "abcdf") { i match { case 'a' => sign = 1 case 'b' => sign = 2 case 'c' => sign = 3 case 'd' => sign = 4 case _ =>...
2019-05-29 23:50:32 373
原创 Scala数据结构
Scala数据结构主要的集合特质Scala同时支持可变集合和不可变集合,优先采用不可变集合。集合主要分为三大类:序列(List),集(set),映射(map)。所有的集合都扩展自Iterable特质。对几乎所有的集合类,Scala都同时提供了可变和不可变版本。Seq是一个有先后次序的值的序列。IndexedSeq能够通过整形下表快速访问Set是一个没有先后顺序的集合。Map是一组键...
2019-05-29 21:20:10 1207
原创 scala基础语法
scala基础语法声明值和变量scala使用val或者var声明变量var/val 变量名[:变量类型]=变量值val定义的变量,值是不可变的,是一个常量var a=10var b="hello"val author="upuptop"变量类型可以省略,解析器会根据值判断,val和var声明变量时都必须初始化。尽可能的使用不可变变量常用类型Boolean:true或者...
2019-05-29 17:28:31 352
原创 Scala安装配置
Scala安装配置官网:https://www.scala-lang.org/下载地址:https://www.scala-lang.org/download/简述scala 是一门多范式(multi-paradigm)的编程语言,设计初衷是要集成面向对象编程和函数式编程的各种特性。Scala 运行在Java虚拟机上,并兼容现有的Java程序。Scala 源代码被编译成Java字节码...
2019-05-29 16:07:33 284
原创 Kafka工作流程分析
Kafka工作流程分析生产过程分析写入方式producer采用推(push)模式将消息发布到broker,每条消息都被追加(append)到分区(patition)中,属于顺序写磁盘(顺序写磁盘效率比随机写内存要高,保障kafka吞吐率)。分区(Partition)Kafka集群有多个消息代理服务器(broker-server)组成,发布到Kafka集群的每条消息都有一个类别,用...
2019-05-29 15:52:43 277
原创 Kafka配置信息
Kafka配置信息broker配置信息属性默认值描述broker.id必填参数,broker的唯一标识log.dirs/tmp/kafka-logsKafka数据存放的目录。可以指定多个目录,中间用逗号分隔,当新partition被创建的时会被存放到当前存放partition最少的目录。port9092BrokerServer接受客户端连接的端口号...
2019-05-29 15:51:41 341
原创 Kafka概述
Kafka概述Kafka是什么在流式计算中,Kafka一般用来缓存数据,Storm通过消费Kafka的数据进行计算。Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。Kafka最初是由LinkedIn公司开发,并于 2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提...
2019-05-29 15:51:07 221
原创 Kafka API操作
Kafka API实战环境准备在eclipse中创建一个java工程在工程的根目录创建一个lib文件夹解压kafka安装包,将安装包libs目录下的jar包拷贝到工程的lib目录下,并build path。启动zk和kafka集群,在kafka集群中打开一个消费者生产者API[upuptop@hadoop102 kafka]$ bin/kafka-console-consum...
2019-05-29 15:50:01 479
原创 Kafka producer拦截器(interceptor)
Kafka producer拦截器(interceptor)拦截器原理Producer拦截器(interceptor)是在Kafka 0.10版本被引入的,主要用于实现clients端的定制化控制逻辑。对于producer而言,interceptor使得用户在消息发送前以及producer回调逻辑前有机会对消息做一些定制化需求,比如修改消息等。同时,producer允许用户指定多个inte...
2019-05-29 15:49:10 648
原创 Kafka Streams
Kafka Streams概述Kafka StreamsKafka Streams。Apache Kafka开源项目的一个组成部分。是一个功能强大,易于使用的库。用于在Kafka上构建高可分布式、拓展性,容错的应用程序。Kafka Streams特点1)功能强大 高扩展性,弹性,容错 2)轻量级 无需专门的集群 一个库,而不是框架3)完全集成 100%的Kafka...
2019-05-29 15:48:22 332
原创 Kafka集群部署以及使用
Kafka集群部署部署步骤hadoop102hadoop103hadoop104zkzkzkkafkakafkakafkahttp://kafka.apache.org/downloads.html解压安装文件修改配置文件$ vi server.properties#broker的全局唯一编号,不能重复broker.id=0#是否允许删...
2019-05-29 15:46:47 282
原创 Flume框架的学习使用
Flume框架的学习使用Flume简介Flume提供一个分布式的,可靠的,对大数据量的日志进行高效收集、聚集、移动的服务。Flume基于流失架构,容错性强,也很灵活简单Flume,kafka用来实时进行数据手机,Spark,Storm用来实时处理数据,impala用来实时查询数据。Flume角色Source用于采集数据,Source是产生数据流的地方,同时Source会将产生的...
2019-05-29 11:12:53 941
原创 Sqoop学习及使用
Sqoop简介Sql + Hadoop = SqoopApache Sqoop™是一种旨在有效地在 Apache Hadoop 和诸如关系数据库等结构化数据存储之间传输大量数据的工具原理将导入或导出命令翻译成MapReduce程序来实现。在翻译出的MapReduce中主要是针对InputFormat和outputformat进行定制。安装安装之前保证jvm和Hadoop的...
2019-05-29 10:30:37 637
原创 Hive调优策略
Hive调优策略Fetch抓取Fetch抓取是指,Hive中对某些情况的查询可以不必使用MapReduce计算。例如:select * from employee;在这种情况下,Hive可以简单的读取employee对应存储目录下的文件,然后输出查询结果到控制台上。在hive-default.xml.template文件中hive.fetch.task.conversion默认是more...
2019-05-28 13:48:09 333
原创 Hive之函数与自定义函数
系统自带的函数1)查看系统自带的函数 hive> show functions;2)显示自带的函数的用法 hive> desc function upper;3)详细显示自带的函数的用法 hive> desc function extended upper;自定义函数1)Hive 自带了一些函数,比如:max/min 等,但是数量有限,自己可以通过自定义 UDF...
2019-05-28 12:27:05 443
原创 Hive的查询
基本查询全表和特定列查询1.全表查询 select * from emp;2.选择特定列查询 select empno,ename from emp;注意: 1.SQL语言大小写不敏感 2.SQL可以写在一行或者多行 3.关键字不能被缩写也不能分行列别名主要作用: 重命名一个列 便于计算使用AS关键字为列指定别名select ename as name from e...
2019-05-25 00:18:40 294
原创 HIVE之 DDL 数据定义 & DML数据操作
DDL数据库定义创建数据库1)创建一个数据库,数据库在 HDFS 上的默认存储路径是/user/hive/warehouse/*.db。 hive (default)> create database db_hive;2)避免要创建的数据库已经存在错误,增加 if not exists 判断。(标准写法) hive (default)> create database if ...
2019-05-24 12:19:02 301
原创 Hive的基本操作和数据类型
Hive的基本操作 1.启动Hive bin/hive 2.查看数据库 hive>show databases; 3. 打开默认数据库 hive>use default; 4.显示default数据库中的所有表 hive>show tables; 5.创建一张表 hive> create table student(id int, na...
2019-05-24 00:20:32 418 1
原创 Hive的架构原理&Hive的安装步骤
Hive架构图元数据默认数据库是:Derby、开发使用MySQLHive如何将SQL语句翻译成MapReduce的?1.使用SQL解析器解析SQL语句2.使用编译器进行编译逻辑3.使用优化器进行优化4.使用执行器在Hadoop上执行MapReduceHive是基于Hadoop之上的框架。Hive的安装步骤1.安装Hive之前,确保Hadoop是正常安装成功的2.解压...
2019-05-23 21:28:24 215
原创 Yarn工作机制
概述(0)Mr 程序提交到客户端所在的节点。(1)Yarnrunner 向 Resourcemanager 申请一个 Application。(2)rm将该应用程序的资源路径和ApplicationId返回给 yarnrunner。(3)该程序将运行所需资源提交到 HDFS 上。(4)程序资源提交完毕后,申请运行 mrAppMaster。(5)RM 将用户的请求初始化成一个 task...
2019-05-23 12:00:28 264
原创 Hadoop之WritableComprale 排序
Hadoop之WritableComprale 排序排序是 MapReduce 框架中最重要的操作之一。Map Task 和 Reduce Task 均会对数据(按照 key)进行排序。该操作属于 Hadoop 的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。对于 Map Task,它会将处理的结果暂时放到一个缓冲...
2019-05-21 15:36:50 191
原创 Hadoop值Partition分区
分区操作为什么要分区?要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机归属地不同省份输出到不同文件中(分区)默认 partition 分区/** 源码中:numReduceTasks如果等于1 不会走getPartition方法 numReduceTasks:默认是1*/public class HashPartitioner<K, V> ...
2019-05-21 15:17:27 1489
原创 Hadoop优化
大量小文件的优化策略在Input时,将小文件组合成大文件如果已存在HDFS中,可以用CombineTextInputFormat进行切片,他可以将多个小文件从逻辑上规划到一个切片上,这样就可以将多个小文件放到一个MapTask中处理1)默认情况下 TextInputformat 对任务的切片机制是按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给一个 maptask,这样如...
2019-05-21 15:03:39 338
原创 MapReduce之提交job源码分析 FileInputFormat源码解析
MapReduce之提交job源码分析job 提交流程源码详解//runner 类中提交jobwaitForCompletion()submit();// 1 建立连接connect(); // 1)创建提交 job 的代理 new Cluster(getConfiguration()); // (1)判断是本地 yarn 还是远程 initialize(jobTrackAd...
2019-05-21 14:28:39 430
原创 MapReduce之WordCount
用户统计文件中的单词出现的个数WordCountMapper.javapackage top.wintp.mapreduce.wordcount;import org.apache.hadoop.io.IntWritable;import org.apache.hadoop.io.LongWritable;import org.apache.hadoop.io.Text;impo...
2019-05-21 13:32:54 273
原创 hadoop的运行模式
概述 1)资料查询(官方网址) (1)官方网站: http://hadoop.apache.org/ (2)各个版本归档库地址 https://archive.apache.org/dist/hadoop/common/hadoop-2.7.7/ (3)hadoop2.7.6版本详情介绍 https://hadoop.apache.org/docs/r2...
2019-05-20 23:52:30 822
原创 集群之间配置 SSH无密码登录
集群之间配置 SSH无密码登录配置 ssh(1)基本语法 ssh 另一台电脑的 ip 地址(2)ssh 连接时出现 Host key verification failed 的解决方法 # ssh 192.168.1.103 The authenticity of host '192.168.1.103 (192.168.1.103)' can't be established....
2019-05-20 22:55:36 555
原创 NameNode故障处理方法
NameNode故障处理方法简述NameNode故障后,可以通过下列两种方式进行恢复数据:方法一(手动):将SecondaryNameNode文件下的数据复制到NameNode中方法二(程序):使用-importCheckpoint选项启动NameNode的守护线程, 从而将SecondaryNameNode文件目录下的数据拷贝到NamenNode中具体操作方法方法一模拟Nam...
2019-05-20 18:11:41 1691
原创 HDFS的HA(高可用)
HDFS的HA(高可用)概述(1)实现高可用最关键的策略是【消除单点故障】。HA 严格来说应该分成各个组件的 HA 机制:HDFS 的 HA 和 YARN 的 HA。(2)Hadoop2.0 之前,在 HDFS 集群中 NameNode 存在单点故障(SPOF)。(3)NameNode 主要在以下两个方面影响 HDFS 集群: a)NameNode 机器发生意外,如宕机,集群将无法...
2019-05-20 15:58:25 411
原创 DataNode的工作机制
DataNode的工作机制一个数据块在DataNode以文件的形式在磁盘上保存,分为两个文件,一个是数据本身,一个是元数据信息(包括数据的长度,校验和,时间戳)1.DataNode启动后,向NameNode进行注册2.NameNode返回注册成功3.以后按照每周期(1小时)上报所有块信息4.心跳每3秒一次,心跳返回带有NameNode给DataNode的命令5.超过10分钟+ti...
2019-05-20 15:02:15 672
原创 NameNode和SecondaryNameNode的工作机制
NameNode&Secondary NameNode 工作机制NameNode: 1.启动时,加载编辑日志和镜像文件到内存 2.当客户端对元数据进行增删改,请求NameNode 3.NameNode记录操作日志,更新滚动日志 4.日志记录完成,在NameNode内存中对元数据进行操作 edits.001 操作日志 edits.002 edits.inprogress ...
2019-05-20 12:19:38 1120
原创 HDFS读写数据流程
HDFS的组成1.NameNode:存储文件的元数据,如文件名,文件目录结构,文件属性(创建时间,文件权限,文件大小)以及每个文件的块列表和块所在的DataNode等。类似于一本书的目录功能。2.DataNode:在本地文件系统存储文件块数据,以及块数据的校验和。3.SecondaryNameNode:用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。HDFS写数据...
2019-05-20 11:10:09 302
让你的word文档动起来.rar
2020-01-02
百度图片识别demo,下载即可运行
2019-05-28
hadoop2.8.3 for windows7
2019-03-01
百度OCR文字识别案例_android防止ak&sk;泄漏版本
2019-01-14
idea_setting文件
2018-08-30
百度OCR的Demo(Android)
2018-05-10
android-mail.jar
2017-11-09
Everything
2017-09-06
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人