自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(9)
  • 收藏
  • 关注

原创 Eclipse常用快捷键

Eclipse常用快捷键1几个最重要的快捷键代码助手:Ctrl+Space(简体中文操作系统是Alt+/)快速修正:Ctrl+1单词补全:Alt+/打开外部Java文档:Shift+F2显示搜索对话框:Ctrl+H快速Outline:Ctrl+O打开资源:Ctrl+Shift+R打开类型:Ctrl+Shift+T显示重构菜单:Alt+Shift+T上一个/下一个光标的位置:Alt+Left/Right 上一个/下一个成员(成员对象或成员函数):Ctrl+Shift+Up/Down选中闭合元素:Alt+

2020-06-03 17:15:20 204

原创 kafka的一些问题

1、kafka在高并发的情况下,如何避免消息丢失和消息重复?消息丢失解决方案:首先对kafka进行限速, 其次启用重试机制,重试间隔时间设置长一些,最后Kafka设置acks=all,即需要相应的所有处于ISR的分区都确认收到该消息后,才算发送成功消息重复解决方案:使用唯一id标识,选择唯一主键存储到外部介质(Redis或者mongdb)中,先查询是否存在,若存在则不处理;若不存在,先插入...

2019-03-07 14:17:47 299

原创 学习spark过程中的一些个人总结

spark是一个与Hadoop数据兼容的快速通用处理引擎。它可以通过集群或spark的独立模式在Hadoop集群中运行特点:1、速度快:ApacheSPark使用最新的DAG调度程序、查询优化器和物理执行引擎(基于内存处理数据),实现了批处理和流数据的高性能2、易用性:Spark支持Java、Python和Scala的API,还支持超过80种高级算法,使用户可以快速构建不同的应用。3、通性...

2019-03-06 09:39:54 1782

原创 shuffle过程个人总结

shuffle过程我只简单总结一下流程,这里先不分析相关的东西,分别看MR的shuffle和spark的shuffle一 、MR的shufflemap方法业务逻辑处理结果放入OutputCollector输出收集器,放入环形缓冲区(默认100M,其中数据区占80%,20%为保留区),当数据超过80%,指针会指向保留区继续让map写数据,数据区的数据会写入溢出器,并由溢出器进行分区(利用hash...

2019-03-02 09:31:16 346

原创 Hbase存储相关

HBASE 的存储机制:region(区域):表上的一块数据store:逻辑上的列簇memstore列簇缓冲区:保存热数据(最近浏览,更新等操作的数据)region server的工作职责:管理region 和 响应io请求数据可靠性的体现:1、如果一个region server挂了 :写日志 HLOG()一个server只有一个HLOG,对数据的操作 根据rowk...

2019-02-28 17:57:25 165

原创 MR流程总结

maptask的数量由客户机的切片信息决定的一、在我们提交完MR程序之后,MR程序会先后经历map,reduce阶段,下面我们详细的来解析一下各个阶段:1、map阶段,在这个阶段主要分如下的几个步骤read,map,collect,溢写,combine阶段(1)、在read阶段,maptask会调用用户自定义的RecordReader方法,在splitInput中解析出一个个的key-val...

2019-02-26 21:48:58 2135

转载 ZooKeeper 典型的应用场景

Zookeeper 从设计模式角度来看,是一个基于观察者模式设计的分布式服务管理框架,它负责存储和管理大家都关心的数据,然后接受观察者的注册,一旦这些数据的状态发生 变化,Zookeeper 就将负责通知已经在 Zookeeper 上注册的那些观察者做出相应的反应,从而实现集群中类似 Master/Slave 管理模式,关于 Zookeeper 的详细架构等内部细节可以阅读 Zookeeper 的...

2019-02-26 21:44:10 209

原创 关于zookeeper的一些小结

zookeeper是一个分布式协调服务,就是为用户的分布式应用程序提供协调服务的,其本身也是一个分布式程序,只要半数以上的服务器存活,就能运行zookeeper的组成:一个leader,多个followerzookeeper的特性:1、全局数据一致性:每个server有一份相同的数据,client无论连接那台服务器,都可以得到相同的数据2、分布式读写,更新请求转发:由leader实时数据更...

2019-02-26 21:35:13 313

原创 Hadoop_HDFS的读写流程

HDFS的读操作:1、跟namenode通信查询元数据(block所在的datanode节点),找到文件块所在的datanode服务器2、挑选一台datanode(就近原则,然后随机)服务器,请求建立socket流3、datanode开始发送数据(从磁盘里面读取数据放入流,以packet为单位来做校验)4、客户端以packet为单位接收,先在本地缓存,然后写入目标文件,后面的block块就...

2019-02-26 21:14:36 243

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除