大数据
w_wangzhiyuan
这个作者很懒,什么都没留下…
展开
-
Zookeeper分布式锁原理
分布式锁介绍 分布式锁主要用于在分布式环境中保护跨进程、跨主机、跨网络的共享资源实现互斥访问,以达到保证数据的一致性。分布式锁获取思路 1.获取分布式锁的总体思路 在获取分布式锁的时候在locker节点下创建临时顺序节点,释放锁的时候删除该临时节点。客户端调用createNode方法在locker下创建临时顺序节点,然后调用getChildren(“locker”)来获取locker下面的所有子节点,注意此时不用设置任何Watcher。客户端获取到所有的子节点path之后,如...原创 2020-09-14 17:16:44 · 172 阅读 · 0 评论 -
Kafak优化思路
主要优化原理和思路kafka是一个高吞吐量分布式消息系统,并且提供了持久化。其高性能的有两个重要特点:利用了磁盘连续读写性能远远高于随机读写的特点; 并发,将一个topic拆分多个partition。要充分发挥kafka的性能,就需要满足这两个条件kafka读写的单位是partition,因此,将一个topic拆分为多个partition可以提高吞吐量。但是,这里有个前提,就是不同partition需 要位于不同的磁盘(可以在同一个机器)。如果多个partition位于同一个磁盘,那么意味着原创 2020-09-08 16:33:50 · 171 阅读 · 0 评论 -
Kafka原理基本组件
Kafka一、Kafka是什么 Kafka是一种高吞吐量的分布式发布--订阅消息系统。它可以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop的一样的日志数据和离线分析系统,但又要求实时处理的限制,这是一个可行的解决方案。Kafka的目的是通过Hadoop的并行加载机制来统一线上和离线的消息处理,也是为了通过集群机来提供实时的消...原创 2020-09-08 16:31:13 · 281 阅读 · 0 评论 -
Kafka集群搭建
----------------------------------------------------------KafKa环境的搭建-------------------------------------1.需要安装JDK1.8以上2.安装zk集群3.安装kafka4.核心配置文件: consumer.properties #配置消费者属性 producer.properties # 生产者属性 server.properties #服务broker消息...原创 2020-09-08 16:29:10 · 131 阅读 · 0 评论 -
YARN工作流程总结
yarn 工作流程1.client 向resourceManager申请提交一个Application2.resourceManager返回资源提交的路径给client3.client 提交job运行所需要的资源文件到路径4.client 资源提交完毕后,向resourceManager申请运行AppMaster5.resourceManager 将client的请求初始化成一个task(FIFO调度策略队列:先进先出)6.nodemanager 领取 resourceManager 发送的t原创 2020-09-04 14:27:40 · 170 阅读 · 0 评论 -
HDFS的工作机制
hdfs的工作机制4.1 概述HDFS集群分为两大角色:NameNode、DataNode NameNode负责管理整个文件系统的元数据管理、负责客户端用户的请求 DataNode 负责管理用户的文件数 据块 文件会按照固定的大小(blocksize)切成若干块后分布式存储在若干台datanode上 每一个文件块可以有多个副本,并存放在不同的datanode上 Datanode会定期向Namenode汇报自身所保存的文件block信息,而namenode则会负责保持文件的副本数量 .原创 2020-09-02 16:06:52 · 187 阅读 · 0 评论 -
NameNode格式化失败问题的解决
NameNode格式化失败问题的解决15/04/08 10:05:43 INFO namenode.NameNode: registered UNIX signal handlersfor [TERM, HUP, INT]15/04/08 10:05:43 INFO namenode.NameNode: createNameNode [-format]15/04/08 10:05:43 WARN ...原创 2018-05-14 19:21:02 · 6178 阅读 · 0 评论 -
sql练习题(经典)
CREATE DATABASE student;USE student;SELECT * FROM student;-- 学生表CREATE TABLE student( sid INT PRIMARY KEY AUTO_INCREMENT, sname VARCHAR(20), sage INT, ssex CHAR(1));INSERT INTO student (sn...原创 2018-05-21 08:08:45 · 402 阅读 · 0 评论 -
hadoop环境配置
集群笔记:添加用户hadoop配置防火墙:Service iptables start -- 开启防火墙Service iptables status -- 查看防火墙的状态Service iptables stop -- 关闭防火墙Chkconfig iptables --list -- 查看防火墙设置状态Chkconfig iptables off -- 下次开机的时候关闭防火墙 1. 需要j...原创 2018-04-29 15:41:45 · 183 阅读 · 0 评论 -
UBEN模式的好处
1、mapreduce.job.ubertask.enable=true 首先你要启用uber模式,默认是false2、map数量<=9,3、reduce<=1,4、所有输入文件的总长度<=默认块大小(128M),5、mapreduce.map.memory.mb(默认1024)<=内存需求(内存需求的大小由yarn.app.mapreduce.am.resource.mb...原创 2018-05-18 08:42:58 · 355 阅读 · 0 评论 -
MapReduce大量小文件问题
1.默认情况下,TextInputformat对任务的切片机制是按文件规划切片,不管文件多小,都会是一个单独的切片,都会交给maptaskz这样,如果有大量小文件,就会产生大量的maptask,处理效率及其低下2.优化方法:最好的办法:在数据处理系统的最前端(预处理/采集),就将小文件合并成大文件,再上传到HDFS做后续分析补救措施:如果已经是大量小文件存在hdfs中了,可以使用另一种Iinput...原创 2018-05-18 08:41:50 · 1690 阅读 · 0 评论 -
LINUX ifconfig没有ip
前提是:当你的网卡什么的都配置好的情况下:NAT方式上不了网时,应该是与VMware相关的服务没有打开,开启服务:点开始菜单-》运行-》键入以下三条命令:net start "VMware Authorization Service" net start "VMware DHCP Service"net start "VMware NAT Service"...原创 2018-05-18 08:40:31 · 378 阅读 · 0 评论 -
HadoopHistoryServer
原创 2018-04-30 09:44:57 · 279 阅读 · 0 评论 -
Hadoopresourmanger
原创 2018-04-30 09:44:18 · 110 阅读 · 0 评论 -
hadoop集群成功
原创 2018-04-30 09:43:25 · 148 阅读 · 0 评论