Marlboro_2-CSDN博客

原创安装vMware虚拟机出现H:\驱动无效怎么办 ?

由于之前H盘文件删除,再一次安装VMware时出现H:\驱动无效下载一个vmWare 清理工具下载地址::::https://www.jb51.net/softs/55281.html

2019-12-03 15:41:01 5726 2

原创 Kafka Connector使用jdbc源抽取DB2数据库报java.io.CharConversionException导致的数据丢失

kafka connector 源为db2抽取时报错,错误信息为[2019-12-02 00:09:22,130] WARN =============DB2 columns fields error================: (io.confluent.connect.jdbc.source.JdbcSourceTask)com.ibm.db2.jcc.am.SqlException...

2019-12-03 15:37:10 2558

原创使用java发送https请求

##1.使用java 发送https请求，第一次使用的是这个api<dependency> <groupId>org.apache.httpcomponents</groupId> <artifactId>httpclient</artifactId> <version>4.5...

2019-01-23 17:44:03 1178 1

转载初识hadoop

原文地址：https://www.cnblogs.com/codeOfLife/p/5375120.html#HDFS%E5%A6%82%E4%BD%95%E5%86%99%E5%85%A5%E6%96%87%E4%BB%B6作者：【刘超★ljc】目录 HDFS 是做什么的 HDFS 从何而来为什么选择 HDFS 存储数据 HDFS 如何存储数据...

2018-09-04 20:09:08 228

原创计算机中的进制之间的转换

1.二进制转十进制、十六进制二进制有个8421法则,能够帮助我们快速的将二进制转为十进制二进制:1 1 1 1 1 1 1 1十进制:128 64 32 16 8 4 2 1比如00001111 求其十进制则在1的位置找其对应也就是 8+4+2+1 = 15.2.二进制转八进制二进制转八进...

2018-09-04 17:02:41 2635

原创 Hbase的协处理器

协处理采用Observe观察者模式,监听操作.分为1)masterobserver //监听建表等ddl语句2)walobserver //监听WAL的操作3)regionObserver //监听region内操作使用最广regionObserver 使用方式:1.extends BaseRegionObserver2.重新方法其中有很多方法...

2018-08-29 19:15:04 329

原创 Hbase中Scan数据时的缓存优化以scan 过滤器的使用

1.缓存优化在hbase的java api 中,默认在scan 过程中scan.next一次进行一次rpc请求,这导致scan的效率很低,设置scan的缓存优化很有必要 1.scan.setBatch(int 10),设置一次next 返回的列数的缓存,针对表中的数据有多列的时候应设置此项.2.scan.setCaching(10); 十次next，一次rpc请求,通过此项的设...

2018-08-29 16:54:29 1438

原创 Hive 中的自定义函数(udf,udtf,udaf)

自定义函数的类前面的注释,会在hive中desc中显示自定义函数的doc@Description( name = "myudf", value = "这是一个自定义方法", extended = "eg: select myudf(1,2) => 3 , select myudf(\"hello\",\"world\") => he...

2018-08-27 22:10:19 603

原创 zookeeper在hadoop中的作用以及数据的读写和领袖推选机制

1.zk的作用分布协调服务，解决分布式服务在工作时产生的问题 1)竞态条件 //多个主机同时对一个文件进行操作，俗称抢资源 2)死锁： //多个主机互相等待对方完成 3)不一致性： //资源文件丢失或者主机宕机2.zk在hadoop中hadoop的namenode的高可用及自动容灾,也就是在多namenode 情况下,对name...

2018-08-27 00:06:24 2158

原创 hadoop中MapReduce的sort(部分排序,完全排序,二次排序)

1.部分排序MapReduce默认就是在每个分区里进行排序2.完全排序在所有的分区中，整体有序 1)使用一个reduce 2)自定义分区函数不同的key进入的到不同的分区之中,在每个分区中自动排序,实现完全分区..import org.apache.hadoop.io.IntWritable;import org...

2018-08-26 21:34:44 2613

原创 hadoop中MapReduce防止数据倾斜的两种方式.

MapReduce在shuffle数据的阶段,大量的数据发送到一个节点,造成此节点繁忙甚至瘫痪，而其他节点资源空闲,为了解决这个问题,有如下两种解决方案; 1.自定义key以单词的重复个数统计为例,假如一个文本里面都是100 有100个,how有100个 are 有100个 you有100个为例,在一个mapreduce完成后,如果reduce的个数设置为3个,可能这些数据都会跑到一个...

2018-08-25 20:06:11 890

原创 Hadoop机架感知-----数据存放副本所在datanodes是放在哪个节点?

这两张图说明了,集群之间的网络拓扑距离,经过一次网络交换机的话,网络拓扑hadoop的数据副本是怎么放得呢?hadoop副本的存放遵循以下的原则:1.可靠性：block存储在两个机架上以保证一个机架故障导致整个数据丢失.2.写带宽：写操作仅仅穿过一个网络交换机,从上图中可以看出,网络拓扑距离如果是在一个机架上是的距离是最短的,但是不满足可靠性的原则....

2018-08-25 18:10:32 929

原创浅谈hadoop中namenode启动过程分析以及datanode数据写入的过程

1.启动namenode过程分析分析如下 0)namenode先进入安全模式，在此模式下，文件均处于只读状态 1)namenode将fsimage镜像文件加载到内存如图第一个 2)将edits_inprogress实例化为edits文件: edits_inprogress...

2018-08-25 16:46:51 538

原创浅析Hadoop中namenode和datanode

1.namenode职能存储文件的类型、大小、权限、路径等基本元数据，文件的存储通过edits(编辑日志)和fsimage(镜像文件)进行存储,其中编辑日志存放的是操作日志,包括用户的基本操作和系统的写入信息.在写操作过程中，整个流程分为以下阶段 1、创建copying文件在写操作过程中，整个流程分为以下阶段 1、创建copy...

2018-08-25 11:44:54 412

原创计算时间差

//回调函数关闭当前窗体并选择上一个窗体执行其dosearch() function saveBackFun(data){ closeWin(); var a = window.parent; a.dosearch(); }//失效日期改变事件 function duedate(){ //获取开始日期的值 var start = (“#occurda

2017-09-14 16:15:06 284

Marlboro_2的博客