ZJ_2459-CSDN博客

原创 Eclipse常用快捷键

Eclipse常用快捷键1几个最重要的快捷键代码助手:Ctrl+Space（简体中文操作系统是Alt+/）快速修正：Ctrl+1单词补全：Alt+/打开外部Java文档：Shift+F2显示搜索对话框：Ctrl+H快速Outline：Ctrl+O打开资源：Ctrl+Shift+R打开类型：Ctrl+Shift+T显示重构菜单：Alt+Shift+T上一个/下一个光标的位置：Alt+Left/Right 上一个/下一个成员（成员对象或成员函数）：Ctrl+Shift+Up/Down选中闭合元素：Alt+

2020-06-03 17:15:20 204

原创 kafka的一些问题

1、kafka在高并发的情况下,如何避免消息丢失和消息重复?消息丢失解决方案:首先对kafka进行限速，其次启用重试机制，重试间隔时间设置长一些，最后Kafka设置acks=all，即需要相应的所有处于ISR的分区都确认收到该消息后，才算发送成功消息重复解决方案:使用唯一id标识，选择唯一主键存储到外部介质（Redis或者mongdb）中，先查询是否存在，若存在则不处理；若不存在，先插入...

2019-03-07 14:17:47 299

原创学习spark过程中的一些个人总结

spark是一个与Hadoop数据兼容的快速通用处理引擎。它可以通过集群或spark的独立模式在Hadoop集群中运行特点：1、速度快：ApacheSPark使用最新的DAG调度程序、查询优化器和物理执行引擎（基于内存处理数据），实现了批处理和流数据的高性能2、易用性：Spark支持Java、Python和Scala的API，还支持超过80种高级算法，使用户可以快速构建不同的应用。3、通性...

2019-03-06 09:39:54 1782

原创 shuffle过程个人总结

shuffle过程我只简单总结一下流程，这里先不分析相关的东西，分别看MR的shuffle和spark的shuffle一、MR的shufflemap方法业务逻辑处理结果放入OutputCollector输出收集器，放入环形缓冲区（默认100M，其中数据区占80%，20%为保留区），当数据超过80%，指针会指向保留区继续让map写数据，数据区的数据会写入溢出器，并由溢出器进行分区（利用hash...

2019-03-02 09:31:16 346

原创 Hbase存储相关

HBASE 的存储机制：region（区域）：表上的一块数据store：逻辑上的列簇memstore列簇缓冲区：保存热数据（最近浏览，更新等操作的数据）region server的工作职责：管理region 和响应io请求数据可靠性的体现：1、如果一个region server挂了：写日志 HLOG（）一个server只有一个HLOG，对数据的操作根据rowk...

2019-02-28 17:57:25 165

原创 MR流程总结

maptask的数量由客户机的切片信息决定的一、在我们提交完MR程序之后，MR程序会先后经历map，reduce阶段，下面我们详细的来解析一下各个阶段：1、map阶段，在这个阶段主要分如下的几个步骤read，map,collect，溢写，combine阶段(1)、在read阶段，maptask会调用用户自定义的RecordReader方法，在splitInput中解析出一个个的key-val...

2019-02-26 21:48:58 2135

转载 ZooKeeper 典型的应用场景

Zookeeper 从设计模式角度来看，是一个基于观察者模式设计的分布式服务管理框架，它负责存储和管理大家都关心的数据，然后接受观察者的注册，一旦这些数据的状态发生变化，Zookeeper 就将负责通知已经在 Zookeeper 上注册的那些观察者做出相应的反应，从而实现集群中类似 Master/Slave 管理模式，关于 Zookeeper 的详细架构等内部细节可以阅读 Zookeeper 的...

2019-02-26 21:44:10 209

原创关于zookeeper的一些小结

zookeeper是一个分布式协调服务，就是为用户的分布式应用程序提供协调服务的，其本身也是一个分布式程序，只要半数以上的服务器存活，就能运行zookeeper的组成：一个leader，多个followerzookeeper的特性：1、全局数据一致性：每个server有一份相同的数据，client无论连接那台服务器，都可以得到相同的数据2、分布式读写，更新请求转发：由leader实时数据更...

2019-02-26 21:35:13 313

原创 Hadoop_HDFS的读写流程

HDFS的读操作：1、跟namenode通信查询元数据（block所在的datanode节点），找到文件块所在的datanode服务器2、挑选一台datanode（就近原则，然后随机）服务器，请求建立socket流3、datanode开始发送数据（从磁盘里面读取数据放入流，以packet为单位来做校验）4、客户端以packet为单位接收，先在本地缓存，然后写入目标文件，后面的block块就...

2019-02-26 21:14:36 243

ZJ_2459的博客