2018年12月_weixin_42291112

原创 kafka学习

消息系统可以分为点对点式消息系统（1对1）和分布订阅式消息系统（1对多），kafka即为分布订阅式消息系统，是一个分布式消息队列，可以处理大量数据，支持在线离线日志处理。kafka对消息保存时根据topic进行归类，发送消息者成为 Producer,消息接受者成为 Consumer,此外 kafka 集群有多个 kafka 实例组成，每个实例(server)称为 broker。但不管是produc...

2018-12-26 15:43:48 72

原创 flume介绍

event是flume中数据传输的基本单元，flume作为日志采集框架，其重点在于配置文件，当数据来源不同，输出地点不同，配置文件的配置也不同。例如当从网络端口接收数据输出到控制台时候则需要配置成netcat source+memory channel+logger sink。当实时监控一个文件的新增内容时候需要配置成exec source+memory channel+logger sink。当...

2018-12-26 15:24:37 117

原创 log4j的作用

log4j是一个日志框架，有了它我们可以将程序的运行输出结果想输出到哪就输出到哪，比如控制台、文件、邮箱、数据库等等都可以。同时想打印什么就打印什么，包括印时间、程序的名称、程序的方法名、程序的行号、线程的名称。能够控制日志信息想打什么打什么，不想打的就不打，日志信息是分级别的，有时候我只想看错误的信息或者警告的信息，有时候我想看到所有的信息我想调试程序等等。专业说就是： 1）监视代码中变量的...

2018-12-26 15:15:28 1185

原创 hbase与zookeeper的关系

hbase regionserver 向zookeeper注册，告诉zookeeper自己的状态信息（是否在线），hmaster启动时候将系统表加载到zookeeper集群上，通过zookeeper可以获取当前表的信息，两者之间互相通信，zookeeper作为hbase的集群协调器，协调处理好hbase的活动。zookeeper主要有以下几个作用：1配置管理：可对所有的分布式机器通过简单的操作...

2018-12-26 15:09:07 2507

转载 GETbytes and bytes.tobytes()

https://blog.csdn.net/u012580143/article/details/84817282

2018-12-20 17:20:57 325

转载 flume组合模式配置

https://blog.csdn.net/lzxlfly/article/details/80672267

2018-12-19 17:38:52 147 1

翻译 flume采集数据输出到kafka还是hdfs

主要由以下四点区别1、实时性：hdfs的实时性没有kafka高。2、消费量的记录：hdfs不会记录你这个块文件消费到了哪里，而基于zookeeper的kafka会记录你消费的点。3、并发消费：hdfs不支持并发消费，而kafka支持并发消费，即多个consumer.4、弹性且有序：当数据量会很大，而且处理完之后就可以删除时，频繁的读写会对hdfs中NameNode造成很大的压力。而kafk...

2018-12-19 17:23:35 1046

原创 flume网站数据来源

采用网站埋点到log日志

2018-12-14 17:28:20 282

转载 flume详解

https://blog.csdn.net/duanshengjie/article/details/80003847

2018-12-14 15:41:07 129

翻译 flume使用

下面介绍两种常用的日志收集框架以及他们如何对接kafka.1).Apache Flume 这是一个apache的顶级项目，所以他的域名为flume.apache.org, 下面是官网上的原理图，Flume框架把每个收集任务都定义为一个Agent（这是一个JAVA进程），他有三个基本组件Source、Channel、Sink。 source：收集数据，可以对接各种常用数据源，如文...

2018-12-14 15:38:10 89

转载 idea新建项目

https://blog.csdn.net/CDW2328/article/details/72627280/

2018-12-06 10:20:25 344

原创虚拟机没有eth0的原因

虚拟机没有eth0的原因是因为复制镜像文件后会+1

2018-12-05 15:51:08 2440

转载关于centos6设置静态ip无法上网解决办法

https://blog.csdn.net/gavin_chun/article/details/77132162

2018-12-03 11:59:08 1094

转载没有datanode

根据日志中的路径，cd /home/hadoop/tmp/dfs，能看到 data和name两个文件夹。方法一：删除DataNode的所有资料及将集群中每个datanode节点的/dfs/data/current中的VERSION删除，然后重新执行hadoop namenode -format进行格式化，重启集群，错误消失。方法二：将name/current下的VERSION中的clust...

2018-12-02 15:44:14 194

转载用spark提交任务时报错java.net.ConnectException

出现这个问题可以从以下几个方面排查：1.防火墙问题2.端口占用问题3.namenode未正常启动防火墙问题可以禁用防火墙或者开放相应端口端口占用问题的话可以netstat -nltp查看，结束占用端口的应用namenode问题的话重新启动namenode...

2018-12-02 15:24:52 885

翻译 hive入门

hive入门记录metastore server：对所有hive原数据和分区的访问都要通过Hive Metastore”。实际上就是一种thrift服务，通过它我们可以获取到hive原数据，并且通过thrift获取原数据的方式，屏蔽了数据库访问需要驱动，url，用户名，密码等等细节。...

2018-12-02 15:23:37 123

weixin_42291112的博客