大数据集群
文章平均质量分 57
lol、蜗牛
这个作者很懒,什么都没留下…
展开
-
flume子进程容易死亡的问题解决以及kafka对单条消息的限制
优化flume:用flume接受tomcat的日志文件catalina.out,将接受的日志文件发送到kafka主题。问题是flume经常挂,临时解决方法是写脚本自动拉起。flume主进程不容易挂,容易挂的是子进程,也就是读取tomcat文件的命令所再进程容易挂。flume配置文件和拉起脚本如下: flume配置文件: # Name the components on this age...原创 2018-12-27 14:42:47 · 1235 阅读 · 0 评论 -
内存碎片的解释,磁盘和硬盘的区别和机器负载
内存碎片:采用固定大小的内存分区,而一个进程没有办法完全使用,剩余的部分就形成了内部碎片,这种情况一般难以避免,还有是因为某些未分配的内存区域太小,以至于不能满足任何进程的内存使用需求,这种是外部碎片。这两种碎片都属于内存碎片。目前采用普遍的内存分配方式是段页式内存分配,就是将进程的内存区域分为不同的段,然后将每一段由多个固定大小的页组成,通过页表机制,使得段内的页可以不必连续处于同一内存区域。...原创 2019-07-17 17:37:07 · 672 阅读 · 0 评论 -
flume执行流程
flume执行流程:source执行channel的doput方法,将接受到的event先放入putlist里面临时缓存起来,当到达一定的量(batchSize)的时候,执行docommit方法,将putlist中的event放入channel的queue(queue的大小是capacity)中,当sink执行时,会调用channel的dotake方法,将取出的event放入到takelist...原创 2019-07-17 17:27:16 · 452 阅读 · 0 评论 -
一次日志采集中sparkstreaming消费kafka遇到的问题
目前小程序日志采集的项目流程:Flume监控Tomcat日志文件,将日志批次量的发送到kafka中,由SparkStreaming程序消费Kafka中的消息,进而将写到Mysql表中。项目架构:Tomcat–>Flume–>Kafka–>SparkSreaming–>Mysql优化之前遇到的问题:1.Flume监控Tomcat日志文件时,所属进程容易挂。2.Kaf...原创 2019-07-17 17:08:08 · 1296 阅读 · 1 评论 -
redis的总结
1.redis是一种支持KV等多种数据结构的存储系统,可用于缓存,事件发布和订阅,高速队列等场景,使用C语言编写,支持网络,提供字符串,哈希,列表,队列集合结构直接存取,基于内存,可持久化。2.redis支持大部分语言3.应用场景:会话缓存最常用,消息队列,活动排行榜或计数。发布和订阅消息,商品列表和评论列表4.redis支持的数据类型:string,hash,list,set,zset...原创 2019-07-17 16:59:52 · 153 阅读 · 0 评论 -
docker命令
docker命令:docker version:查看版本docker info :查看信息docker images:查看本机镜像docker ps:查看当前启动的容器docker ps -a:查看所有的容器docker run -it 仓库源:标签 /bin/bash :启动容器并进入bash交互终端docker start 容器ID:启动容器docker stop 容器ID:优...原创 2019-07-17 16:56:53 · 301 阅读 · 0 评论 -
kafka读写速度快的原因
kafka的消息是保存或者缓存在磁盘上的,一般认为在磁盘上读写数据会降低性能,因为寻址比较消耗时间。但是实际上,kafka具有高吞吐性,轻松支持每秒百万级的写入请求,在海量日志处理场景下广泛应用。kafak读写速度快的原因:一:生产者写入数据kafka会把收到的消息都写入到硬盘中,它绝对不会丢失数据,为了优化写入速度kafka采用了两个技术:顺序写入和内存映射文件1.顺序写入磁盘读写有...原创 2019-07-17 16:54:31 · 1969 阅读 · 0 评论 -
docker操作以及swarm集群操作
一:制作一个基础镜像(包含JDK和tomcat),并将项目与镜像一起,以集群的方式启动1.首先需要一个centos基础镜像2.网上下载jdk和tomcat安装包,将tomcat和jdk安装包上传至服务器,解压。3.进入tomcat的conf目录下根据需要更改配置文件。4.Jdk与tomcat的同级目录下编辑dockerfile文件。将tomcat,jdk已经项目添加至镜像。Docke...原创 2019-07-17 16:50:28 · 734 阅读 · 0 评论 -
docker swarm集群方式部署jar包流程
1.上传jar包到服务器,编辑dockerfile文件,制作镜像2.将镜像打包,发送到docker swarm集群的其他节点,在其他节点导入镜像3.集群的所有节点创建服务目录和日志目录,leader节点可将服务jar包,打包后的镜像文件以及Dockerfile移动到服务目录下,其他节点可将镜像文件移动到服务目录下。各节点目录结构保持一致,目录名称一致。4.在learder节点创建服务,三个副...原创 2019-07-17 16:35:35 · 763 阅读 · 1 评论 -
简洁易懂的kerberos的安全认证原理及搭建流程并集成到CDH中
一.Kerberos认证过程解析Kerveros解决的是如何证明某个人就是他声称的那个人。采用的方法:有一个仅存在A和B之间的秘密,如果有人对A声称自己就是B,那么A通过让B提供这个秘密来证明这个人就是B。这样的验证过程中有几个问题需要解决:1.秘密怎样表示2.B如何向A提供这个秘密3.A如何识别这个秘密4.秘密是怎么生成,并且仅告知A和B首先明白几个概念:Long-term k...原创 2019-05-21 15:35:49 · 1416 阅读 · 0 评论 -
记一次线上kafka一直rebalance故障
地址:https://www.jianshu.com/p/271f88f06eb3转载 2019-04-25 16:15:25 · 1212 阅读 · 0 评论 -
大数据集群搭建之Zookeeper,Kafka,Spark(Standalone模式)搭建流程及相关配置
集群的整体资源:五台机器,32核,128G内存,24T硬盘 325=160C 128G5 =640G32C,128G,24T Spark(2.2.1) ZooKeeper(3.4.12) Kafka(2.11)10.251.27.123 主 1Follower 010.251.27.124 备 2Follower 110.251.27.125 W...原创 2019-01-24 14:34:06 · 473 阅读 · 0 评论 -
CDH中yarn的动态资源池的相关配置
CDH Yarn资源队列划分管理场景:根据不同项目或不同用户,对yarn资源队列进行划分,达到资源管控,任务管控的目的CDH版本:5.15.2配置:1 yarn资源队列参数设置:(1)yarn.scheduler.fair.user-as-default-queue false解释:当设置为 true 时,如果未指定池名称,Fair Scheduler 将会使用用户名作为默认的池名...原创 2019-01-24 14:20:19 · 3499 阅读 · 0 评论 -
修改kafka中某一主题的数据存留时间
我们都知道,kafka中默认消息的保留时间是7天,若想更改,需在配置文件server.properties里更改选项:log.retention.hours=168但是有的时候我们需要对某一个主题的消息存留的时间进行变更,而不影响其他主题。可以使用命令:kafka-configs.sh –zookeeper localhost:2181 –entity-type topics –enti...原创 2018-12-29 09:08:49 · 11189 阅读 · 3 评论 -
内网离线搭建redis集群
1.选择机器,确定端口2.下载指定的redis安装包,上传到服务器3.解压到指定路径 tar -zvxf redis-4.0.9.tar.gz4.进入安装目录下进入编译 cd /app/redis-4.0.9 然后make5.编译完成,redis安装目录下会生成src等文件目录,进入src目录执行make install6.为了方便管理,在安装目录下建立cluster目录,在clus...原创 2019-08-09 14:45:42 · 544 阅读 · 1 评论