- 博客(16)
- 收藏
- 关注
原创 kafka学习
消息系统可以分为点对点式消息系统(1对1)和分布订阅式消息系统(1对多),kafka即为分布订阅式消息系统,是一个分布式消息队列,可以处理大量数据,支持在线离线日志处理。kafka对消息保存时根据topic进行归类,发送消息者成为 Producer,消息接受者成为 Consumer,此外 kafka 集群有多个 kafka 实例组成,每个实例(server)称为 broker。但不管是produc...
2018-12-26 15:43:48 72
原创 flume介绍
event是flume中数据传输的基本单元,flume作为日志采集框架,其重点在于配置文件,当数据来源不同,输出地点不同,配置文件的配置也不同。例如当从网络端口接收数据输出到控制台时候则需要配置成netcat source+memory channel+logger sink。当实时监控一个文件的新增内容时候需要配置成exec source+memory channel+logger sink。当...
2018-12-26 15:24:37 117
原创 log4j的作用
log4j是一个日志框架,有了它我们可以将程序的运行输出结果想输出到哪就输出到哪,比如控制台、文件、邮箱、数据库等等都可以。同时想打印什么就打印什么,包括印时间、程序的名称、程序的方法名、程序的行号、线程的名称。能够控制日志信息想打什么打什么,不想打的就不打,日志信息是分级别的,有时候我只想看错误的信息或者警告的信息,有时候我想看到所有的信息我想调试程序等等。专业说就是: 1)监视代码中变量的...
2018-12-26 15:15:28 1185
原创 hbase与zookeeper的关系
hbase regionserver 向zookeeper注册,告诉zookeeper自己的状态信息(是否在线),hmaster启动时候将系统表加载到zookeeper集群上,通过zookeeper可以获取当前表的信息,两者之间互相通信,zookeeper作为hbase的集群协调器,协调处理好hbase的活动。zookeeper主要有以下几个作用:1配置管理:可对所有的分布式机器通过简单的操作...
2018-12-26 15:09:07 2507
转载 GETbytes and bytes.tobytes()
https://blog.csdn.net/u012580143/article/details/84817282
2018-12-20 17:20:57 325
翻译 flume采集数据输出到kafka还是hdfs
主要由以下四点区别1、实时性:hdfs的实时性没有kafka高。2、消费量的记录:hdfs不会记录你这个块文件消费到了哪里,而基于zookeeper的kafka会记录你消费的点。3、并发消费:hdfs不支持并发消费,而kafka支持并发消费,即多个consumer.4、弹性且有序:当数据量会很大,而且处理完之后就可以删除时,频繁的读写会对hdfs中NameNode造成很大的压力。而kafk...
2018-12-19 17:23:35 1046
翻译 flume使用
下面介绍两种常用的日志收集框架以及他们如何对接kafka.1).Apache Flume 这是一个apache的顶级项目,所以他的域名为flume.apache.org, 下面是官网上的原理图,Flume框架把每个收集任务都定义为一个Agent(这是一个JAVA进程),他有三个基本组件Source、Channel、Sink。 source:收集数据,可以对接各种常用数据源,如文...
2018-12-14 15:38:10 89
转载 关于centos6设置静态ip无法上网解决办法
https://blog.csdn.net/gavin_chun/article/details/77132162
2018-12-03 11:59:08 1094
转载 没有datanode
根据日志中的路径,cd /home/hadoop/tmp/dfs,能看到 data和name两个文件夹。方法一:删除DataNode的所有资料及将集群中每个datanode节点的/dfs/data/current中的VERSION删除,然后重新执行hadoop namenode -format进行格式化,重启集群,错误消失。方法二:将name/current下的VERSION中的clust...
2018-12-02 15:44:14 194
转载 用spark提交任务时报错java.net.ConnectException
出现这个问题可以从以下几个方面排查:1.防火墙问题2.端口占用问题3.namenode未正常启动防火墙问题可以禁用防火墙或者开放相应端口端口占用问题的话可以netstat -nltp查看,结束占用端口的应用namenode问题的话重新启动namenode...
2018-12-02 15:24:52 885
翻译 hive入门
hive入门记录metastore server:对所有hive原数据和分区的访问都要通过Hive Metastore”。实际上就是一种thrift服务,通过它我们可以获取到hive原数据,并且通过thrift获取原数据的方式,屏蔽了数据库访问需要驱动,url,用户名,密码等等细节。...
2018-12-02 15:23:37 123
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人