自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(24)
  • 资源 (1)
  • 收藏
  • 关注

翻译 Flume常用Channel说明

1.Channle常用Channel 配置Memory Channelchannel 是在 Agent 上暂存 Event 的缓冲池。 Event由source添加,由sink消费后删除。配置范例:a1.channels = c1a1.channels.c1.type = memorya1.channels.c1.capacity = 10000a1.channels.c1.transactionCapacity = 10000a1.channels.c1.byteCapacityBuf

2021-09-02 16:45:03 1157

翻译 FLume 常用Sink配置说明

1.Sink常用的Sink类型HDFS Sink这个Sink将Event写入Hadoop分布式文件系统(也就是HDFS)。 目前支持创建文本和序列文件。 它支持两种文件类型的压缩。 可以根据写入的时间、文件大小或Event数量定期滚动文件(关闭当前文件并创建新文件)。 它还可以根据Event自带的时间戳或系统时间等属性对数据进行分区。 存储文件的HDFS目录路径可以使用格式转义符,会由HDFS Sink进行动态地替换,以生成用于存储Event的目录或文件名。 使用此Sink需要安装hadoop, 以便

2021-09-02 16:38:24 2105

翻译 FLume 常用Source配置说明

1.SourceSource 的类型常用source类型Avro SourceAvro Source监听Avro端口,接收从外部Avro客户端发送来的数据流。如果与上一层Agent的 Avro Sink 配合使用就组成了一个分层的拓扑结构。样例a1.sources = r1a1.channels = c1a1.sources.r1.type = avroa1.sources.r1.channels = c1a1.sources.r1.bind = 0.0.0.0a1.sources.

2021-09-02 16:27:18 1993

原创 Kylin3.1.1集成CDH6.2.1

Kylin适配欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。新的改变我们对Markdown编辑器进行了一些功能拓展与语法支持,除了标准的Markdown编辑器功能,我们增加了如下几点新功能,帮助你用它写博客:全新的界面设计 ,将会带来全新的写作体验;在创作中心设置你喜爱的代码高亮样式,Markdown 将代码片显示选择的高亮样式 进行展示

2021-09-02 14:19:46 277

原创 异常

Execution Error, return code 1 from org.apache.hadoop.hive.ql.exec.DDLTask. MetaException(message:org.apache.hadoop.hbase.TableNotFoundException: hbase_emp_table此处异常是hbase和hive集成是 创建内部关联表,如果先删除hba

2018-01-05 22:17:45 445

原创 Java基础——变量

干货在java中实例变量属于类的实例,而类变量属于这个类本身,在同一个JVM内,每个类只对应一个Class对象,单每个类可以创建多个java对象。 由于同一个JVM内每个类只对应一个Class对象,因此同一个JVM内的一个类的类变量只需要一块内存空间:而对于实例变量而言该类每创建一次实例,就要卫诗理变狼分配一块空间,也就是说,程序中有几个实例就需要几块内存空间。 在每一个程序中可以在三个地

2018-01-05 22:13:17 243

原创 Hbase(一)

Hbase的原型是Google的BigTable论文,受到了该论文思想的启发,目前作为Hadoop的子项目来开发维护,用于支持结构化的数据存储。1.HMaster监控RegoinServer 处理 RegoinServer的故障转移 处理元数据的变更 处理regoin的分配或者移除 在空闲时间进行负载均衡 通过zookeeper发布自己的位置给客户端RegoinSer

2018-01-04 19:55:22 405

原创 #浅谈消息队列

消息队列的应用场景目前在生产环境,使用较多的消息队列有ActiveMQ,RabbitMQ,ZeroMQ,Kafka,MetaMQ,RocketMQ等。1.解耦场景说明:用户下单后,订单系统需要通知库存系统。传统的做法是,订单系统调用库存系统的接口。 缺点:假如库存系统无法访问,则订单减库存将失败,从而导致订单失败。订单系统与库存系统耦合 使用消息队列: 订单系统:用户

2018-01-04 13:40:46 279

原创 Kafka是什么?

在流式计算中。Kafka一般用来缓存数据,storm通过消费kafka的数据进行计算。 1)Apache Kafka是一个开源消息系统,由Scala写成。是由Apache软件基金会开发的一个开源消息系统项目。 2)Kafka最初是由LinkedIn公司开发,并于 2011年初开源。2012年10月从Apache Incubator毕业。该项目的目标是为处理实时数据提供一个统一、高通量、低等待的

2018-01-03 21:57:50 929

原创 Java基础核心攻略(一)

数组,变量和对象之间的关系1.java的数组变量只是引用类型的变量,他并不是对象的本身,只要让数组变量只想有效的数组对象,程序即可使用该变量。 2.在java中数组对象需要初始化,但是数组变量并不需要初始化,个人认为变量有点类似于装水的瓶子,瓶子可以存储水,而变量用于存储值,对于java来说怎么样的瓶子能装怎么样的水,指定类型的变量只能装指定类型的水。 3.栈和堆,对于线程来说有很大不同,因为堆

2017-12-29 22:10:49 315

原创 Ganglia是什么

Ganglia是UC Berkeley发起的一个开源集群监视项目,设计用于测量数以千计的节点。Ganglia的核心包含gmond、gmetad以及一个Web前端。主要是用来监控系统性能,如:cpu 、mem、硬盘利用率,I/O负载、网络流量情况等,通过曲线很容易见到每个节点的工作状态,对合理调整、分配系统资源,提高系统整体性能起到重要作用。Flume监控之GangliaGanglia的安装与部署1)

2017-12-29 20:39:03 639

原创 Flume测试案例

案例一:监控端口数据目标:Flume监控一端Console,另一端Console发送消息,使被监控端实时显示。1.安装telnet工具 rpm -ivh xinetd-2.3.14-40.el6.x86_64.rpm rpm -ivh telnet-0.17-48.el6.x86_64.rpm rpm -ivh telnet-server-0.17-48.el6.x86_64.rpm 2.创

2017-12-29 20:25:50 612

原创 Flume是什么

Flume简介1.Flume提供一种分布式的,可靠地,对大量数据的日志进行高效处理,聚集,移动的服务。flume只能在Unix的环境下运行。 2.Flume基于流式框架,容错性强,也灵活简单。 3.Flume,Kafka用来进行数据收集的,Spart,Storm用来实时处理数据,impala用来实时查询。Flume角色1.Source 用于采集数据,Source是产生数据流的地方,同时

2017-12-29 14:05:48 2006

原创 普通硬盘和固态硬盘的故事

硬盘硬盘,都是由盘片、磁头、盘片主轴、控制电机、磁头控制器、数据转换器、接口、缓存等几个部份组成。 所有的盘片都固定在一个旋转轴上,这个轴即盘片主轴。而所有盘片之间是绝对平行的,在每个盘片的存储面上都有一个磁头,磁头与盘片之间的距离比头发 丝的直径还小。所有的磁头连在一个磁头控制器上,由磁头控制器负责各个磁头的运动。磁头可沿盘片的半径方向动作,(实际是斜切向运动),每个磁头同一时刻也必须是同轴的,即

2017-12-29 13:37:38 400

原创 Hive(二)

Hive安装环境准备1.Hive安装地址:1)Hive官网地址: http://hive.apache.org/ 2)文档查看地址: https://cwiki.apache.org/confluence/display/Hive/GettingStarted 3)下载地址: http://archive.apache.org/dist/hive/ 4)github地址: https:

2017-12-28 16:29:51 385

原创 Hive(一)

Hive和数据库比较由于 Hive 采用了类似SQL 的查询语言 HQL(Hive Query Language),因此很容易将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述 Hive 和数据库的差异。数据库可以用在 Online 的应用中,但是Hive 是为数据仓库而设计的,清楚这一点,有助于从应用角度理解 Hive 的特

2017-12-28 15:51:00 1043

原创 Sqoop是做什么的

Sqoop是什么Apache Sqoop(TM)是一种旨在有效地在Apache Hadoop和诸如关系数据库等结构化数据存储之间传输大量数据的工具。 Sqoop于2012年3月孵化出来,现在是一个顶级的Apache项目。 最新的稳定版本是1.4.6。Sqoop2的最新版本是1.99.7。请注意,1.99.7与1.4.6不兼容,且没有特征不完整,它并不打算用于生产部署。Sqoop是用来做什么的将导

2017-12-28 15:14:02 3092

原创 HDFS命令行常见操作

很多HDFS命令跟Linux都差不多,从中可以找到很多规律(1)-help :输出这个命令参数 bin/hdfs dfs -help rm (2)-ls: 显示目录信息 hadoop fs -ls / (3)-mkdir :在HDFS上创建目录 hadoop fs -mkdir -p /user/admin/test 创建多层目录 (4)-moveFromLocal从本地剪切

2017-12-28 14:20:08 997

原创 MySQL如何实现不使用like完成模糊查询

SQL like ?一般情况下的模糊查询都是:select * from xxxtable where xxxname like %**%; 本文介绍了SQL like子句的另一种实现方法(速度比like快),以下这两个sql的使用都会比 like快一些 select * from table where patindex(‘%xx%’,a)>0 select * from table

2017-12-28 14:06:08 10309

原创 HDFS文件系统

一 HDFS概述1.1产生的背景随着数据量越来越大,在一个操作系统管辖的范围内存不下了,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。HDFS只是分布式文件管理系统中的一种。1.2.HDFS是什么HDFS是一个文件系统,用于储存文件,通过目录树来定位文件:其次他是分布式的,有很多服务器联合起来实现功能,集群中各有各的

2017-12-28 13:52:32 302

原创 Hadoop分布式的部署

1.大体流程 1)准备3台客户机(关闭防火墙、静态ip、主机名称) 2)安装jdk 3)配置环境变量 4)安装hadoop 5)配置环境变量 6)安装ssh 7)配置集群 8)启动测试集群 2.设置ssh无密登录 ssh 192.168.1.103输入之后直接输yes 后面会需要输入想要链接主机的密码 (

2017-12-28 11:34:51 267

原创 Hadoop编译源码

源码编译的前期准备工作1.编译的前期准备 联网,jar包准备(hadoop源码、JDK7 、 maven、 ant 、protobuf) (1)hadoop-2.7.2-src.tar.gz (2)jdk-7u79-linux-x64.gz (3)apache-ant-1.9.9-bin.tar.gz (4)apache-maven-3.0.5-bin.tar.gz (5)protobu

2017-12-28 11:11:23 933

原创 搭建Hadoop运行环境

1.虚拟机网络模式设置为NAT 2.修改ip(vim /etc/udev/rules.d/70-persistent-net.rules) IPADDR=192.168.1.101 GATEWAY=192.168.1.2 ONBOOT=yes BOOTPROTO=static DNS1=192.168.1.2 之后执行service network restart 3.修改主机名称

2017-12-28 10:57:13 344

原创 Hadoop到底是什么?

Hadoop是什么1)Hadoop是一个由Apache基金会所开发的分布式系统基础架构2)主要解决,海量数据的存储和海量数据的分析计算问题。3)广义上来说,HADOOP通常是指一个更广泛的概念——HADOOP生态圈Hadoop的优势是什么1)高可靠性:因为Hadoop假设计算元素和存储会出现故障,因为它维护多个工作数据副本,在出现故障时可以对失败的节点重新分布处理。

2017-12-28 10:27:06 972

CDH6.2.1集群从0搭建.docx

CDH6.2.1集群从0搭建.docx

2021-09-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除