diaojing1918-CSDN博客

转载关于centos6版本执行程序报错：libc.so.6: version GLIBC_2.14 not found的解决

执行后程序报错：libc.so.6: version GLIBC_2.14 not found这种情况是因为当前服务器glibc的版本比较低造成的（不出意外是glibc_2.12是最高版本）；1、首先通过命令查看服务器的glibc的版本strings /lib64/libc.so.6 |grep GLIBC_ GLIBC_2.2.5GLIBC_2.2....

2019-09-06 16:17:00 568

转载记一次phoenix在不加索引的情况调优，由6s以上时间变成不到1s

背景：网约车预约单查询：这里面恶心的地方是：1个时间窗口要查询6种时间：推送订单时间（来自mongodb）、有效抢单时间（来自mongodb）、抢单成功时间（实时kafka）、取消订单时间（实时kafka）、到达目的地时间（实时kafka）、支付时间（实时kafka）根据现实的业务情况，乘客即便打车了，也不是立马支付，很可能过些天才支付。所以不能做表关联，否...

2019-08-20 22:02:00 395

转载 maxwell的数据引导方式

INSERT INTO maxwell.bootstrap (database_name, table_name,where_clause) VALUES ('och_prd', 'order_info_201907','create_time >= '2019-07-18'');INSERT INTO maxwell.bootstrap (database_name,...

2019-07-30 22:10:00 343

转载记一次springboot+mybatis+phoenix在代码集成中的坑

场景：希望使用phoenix做查询服务，给服务端提供接口设计：通过springboot做restful的接口发布，通过mybatis做phoenix的sql处理，因此是springboot+mybatis+phoenix的集成方案；但是会遇到一个坑!=========================================我是华丽的分割线=========...

2019-07-23 21:23:00 627

转载关于hbase的数据迁移

场景：一套自己编译的Hbase集群 A一套自己通过cloudera平台搭建的Hbase集群 B注意：（我的两套集群是同一个网段的）方式1：通过快照方式进行数据迁移（不需要提前建表）1）：首先现在老集群A上进行快照制作（hbase命令行）hbase> snapshot '要快照的表名tableA' , '快照名称snapA'查看快照：l...

2019-07-20 17:45:00 363

转载关于phoenix构建hbase视图，更新hbase表后，视图表是否更新的验证

1：创建表create 'MY_TABLE', 'CF1','CF2'2：在hbase上插入一条数据put 'MY_TABLE','1' ,'CF1:V1', 'uwo1'3：在phoenix上创建视图create view MY_TABLE (PK varchar primary key, CF1.V1 varchar, CF2.V2 va...

2019-07-09 14:27:00 226

转载记一次maxwell报错：Couldn't find table 'violation_info' in database och_evcard_data

往常maxwell是正常跑的，但是突然今天报错：Couldn't find table 'violation_info' in database och_evcard_data而且这个库和这个表，可以肯定的是，完全不是自己想要的（在include中过滤出来的）解决：进入mysql的Maxwell库，然后：清空columns，tables，schema...

2019-07-03 18:32:00 784

转载记一次protobuf和hbase自带protobuf版本冲突的解决

使用protobuf生产模板代码，使用的版本是：<dependency> <groupId>com.google.protobuf</groupId> <artifactId>protobuf-java</artifactId> &l...

2019-07-02 18:38:00 1499

转载记一次关于springboot的netty版本冲突问题

冲突的地放其实很多，大概都是类似，找不到哪个方法了：类似于：Error starting ApplicationContext. To display the conditions report re-run your application with 'debug' enabled.19/07/02 16:07:02 ERROR boot.SpringAppl...

2019-07-02 16:29:00 3100

转载 struct streaming中的监听器StreamingQueryListener

在struct streaming提供了一个类，用来监听流的启动、停止、状态更新StreamingQueryListener实例化：StreamingQueryListener 后需要实现3个函数：abstract class StreamingQueryListener {import StreamingQueryListener._/**...

2019-05-30 15:26:00 717

转载关于hive on spark会话的共享状态

spark sql中有一个类：org.apache.spark.sql.internal.SharedState它是用来做：1、元数据地址管理（warehousePath）2、查询结果缓存管理（cacheManager）3、程序中的执行状态和metrics的监控（statusStore）4、默认元数据库的目录管理（externalCatalog）5...

2019-05-23 23:33:00 320

转载记一次Cloudera中页面监控失效问题

因为做了cdh的迁移，启动后所有服务都是正常执行，不影响操作，但是尴尬的是，页面上的图表监控不见了这种情况的根本原因就是：Host Monitor和Service Monitor服务失效！解决：去主节点中的/var/lib目录，然后删掉：cloudera-host-monitor ，cloudera-service-monitor回到cdh的主页，重启...

2019-05-23 09:51:00 265

转载 spark on yarn 动态资源分配报错的解决：org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException: The auxServi...

组件：cdh5.14.0spark是自己编译的spark2.1.0-cdh5.14.0第一步：确认spark-defaults.conf中添加了如下配置：spark.shuffle.service.enabled true //启用External shuffle Service服务spark.shuffle.service.port 7337 /...

2019-05-09 10:41:00 191

转载 sparkOnYarn报错org.apache.hadoop.fs.FSDataInputStream

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream at org.apache.spark.deploy.SparkSubmitArguments.handleUnknown(SparkSubmitArguments.sca...

2019-05-08 15:05:00 820

转载记一次newApiHadoopRdd查询数据不一致问题

2019-05-07 12:46:00 254

转载记一次sparkOnyarn错误：java.lang.UnsatisfiedLinkError

错误大概这样：Caused by: java.util.concurrent.ExecutionException: Boxed ErrorCaused by: java.lang.UnsatisfiedLinkError: /opt/cdh/hadoop-2.6.0-cdh5.14.0/tmp/nm-local-dir/usercache/root/appcac...

2019-05-06 10:23:00 686

转载关于自定义sparkSQL数据源（Hbase）操作中遇到的坑

自定义sparkSQL数据源的过程中，需要对sparkSQL表的schema和Hbase表的schema进行整合；对于spark来说，要想自定义数据源，你可以实现这3个接口：BaseRelation 代表了一个抽象的数据源。该数据源由一行行有着已知schema的数据组成（关系表）。TableScan 用于扫描整张表，将数据返回成RDD[Row]。Relati...

2019-05-01 23:34:00 222

转载 sparkStreaming运行yarn，提交任务报错

op.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:302) at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch...

2019-04-29 20:10:00 336

转载关于hadoop的运行的一些指标监控（非cdh平台的）

在hadoop-env.sh中添加：# 在配置namenode和datanode时都会有用到JMX_OPTS的代码，是为了减少重复提取出的公共代码export JMX_OPTS="-Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.manageme...

2019-04-29 18:04:00 490

转载给hive的metastore做JVM优化

最近在测试环境下，hive的metastore不稳定，于是做一次JVM优化在hive-env.sh中export HADOOP_HOME=/opt/cdh/hadoop-2.6.0-cdh5.14.0if [ "$SERVICE" = "cli" ]; then if [ -z "$DEBUG" ]; then export HADOOP_OP...

2019-04-29 17:38:00 966

转载编译phoneix源码，整合Hbase

Hbase版本：1.2.0-cdh5.14.01）：下载phoneix源码链接:https://pan.baidu.com/s/1uryK_jLEekdXV04DRc3axg 密码:bkqg2）：解压后，更改pom文件，指定你需要的cdh版本因为我的是CDH5.14.0，所以要更改为我的版本注意：需要更改所有的pom文件，把版本指定；3）：...

2019-04-29 11:31:00 97

转载关于snappy的压缩 hadoop和hbase均支持

临时做个随笔下载snappy-1.1.1.tar.gz解压后需要提前安装：yum -y update gccyum -y install gcc+ gcc-c++=======================然后在解压后的snappy目录执行：./confuratimakemake install解压完毕会在/usr/local/lib下剩下：...

2019-04-29 01:04:00 105

转载实时同步到Hbase的优化-1

最近没有管测试环境的，上去看了下，好家伙，kafka羁留了上百万数据，于是打算把数据同步到测试的Hbase库中，在这期间发现了插入性能问题def putMapData(tableName: String , columnFamily:String, key:String , mapData:Map[String , String]) = { val start...

2019-04-28 18:58:00 79

转载关于Hbase的预分区，解决热点问题

Hbase默认建表是只有一个分区的，开始的时候所有的数据都会查询这个分区，当这个分区达到一定大小的时候，就会进行做split操作；因此为了确保regionserver的稳定和高效，应该尽量避免region分裂和热点的问题；那么有的同学在做预分区的时候，可能是按照：1）：通过Hbase提供的api：bin/hbase org.apache.hadoop.hbase....

2019-04-27 21:13:00 355

转载网约车的车辆热点聚类1

类似Uber，需要处理处不同时间段的不同地区的订单热点区域，帮助进行网约车的及时调度处理每个成交单Order中，都会有订单上车位置的起始经纬度：open_lat , open_lng那么在这个时间段内，哪些地区是高密集订单区域，好进行及时的调度，所以需要得到不同地区的热力图初期想法是基于经纬度做聚类操作，典型的聚类算法是K- means，一种基于层次的聚类操作：...

2019-04-27 20:52:00 499

转载关于Hbase开启snappy压缩

版本：自己编译的hbase-1.2.0-cdh5.14.0默认情况下，Hbase不开启snappy压缩 ,所以在hbase的lib/native目录下什么也没有（我的前提是执行hadoop checknative可以看到hadoop是支持snappy的）第一步：需要将snappy-java-1.0.4.1.jar放在hbase的native目录下：可以去had...

2019-04-27 16:42:00 544

转载关于定时脚本crontab的坑

需求：每分钟执行一次程序，将处理后的数据写入mongodb最初做法：1）：写crontab没有响应，于是打算通过shell脚本的while true来执行当时sb，没控制时间内，而且我还是用nohup XXXX.sh 2>&1 &结果就是，几乎每一个瞬间启动一个jar，服务器内存瞬间沾满解决：利用awk命令处理kill -...

2019-04-27 14:18:00 171

转载记一次Hbase的行键过滤器事故问题

数据总数：746条数据因为后面需要进行算法合成，而且spark目前对这种算法支持并不好，因此采用代码编写，所以在查询hbase的过程中采用的是java直接查询，但是为了加快查询速度，我尽可能的使用了过滤器1：初期Hbase的rowkey组合：时间+"_"+订单id查询思路：1：能快速检索，减少GC，采用过滤器2：支持时间段查询根据上面两点，...

2019-04-18 23:29:00 180

转载关于如何通过反射获取函数名称

反射的包名：reflect步骤：1：根据传入函数获取函数的指针2：通过指针获取函数名称代码：func apply(op func(int , int) int , a,b int) int{ pointer:= reflect.ValueOf(op).Pointer() funcName := runtime.FuncForPC(po...

2019-04-13 17:49:00 546

转载 Hbase写Hfile报错：Trying to load more than 32 hfiles to one family of one region

在写Hfile的时候，如果一个family下超过了默认的32个hfile，就会报如下错误：ERROR mapreduce.LoadIncrementalHFiles: Trying to load more than 32 hfiles to family d of region with start keyException in thread "main" j...

2019-04-10 13:29:00 821

转载面试题：分层打印二叉树

需求：树的结构// 1// / \// 2 3// / \ / \// 4 5 6 7需要按照如下的方式进行打印：12 ， 34 ， 5 ， 6 ， 7分析：本文...

2019-03-30 20:18:00 106

转载 Hbase合并Region的过程中出现永久RIT的解决

在合并Region的过程中出现永久RIT怎么办？笔者在生产环境中就遇到过这种情况，在批量合并Region的过程中，出现了永久MERGING_NEW的情况，虽然这种情况不会影响现有集群的正常的服务能力，但是如果集群有某个节点发生重启，那么可能此时该RegionServer上的Region是没法均衡的。因为在RIT状态时，HBase是不会执行Region负载均衡的，即使手动执行balance...

2019-03-30 15:47:00 515

转载 HBase总结 LSM理解

转载的文章，觉得写的比较好讲LSM树之前，需要提下三种基本的存储引擎，这样才能清楚LSM树的由来：哈希存储引擎是哈希表的持久化实现，支持增、删、改以及随机读取操作，但不支持顺序扫描，对应的存储系统为key-value存储系统。对于key-value的插入以及查询，哈希表的复杂度都是O(1)，明显比树的操作O(n)快,如果不需要有序的遍历数据，哈希表就是your Mr.Ri...

2019-03-30 14:26:00 87

转载归并排序-对两个有序链表合并成一个有序链表

需求两个量表：链表A：1-3-5-7-9链表B：2-4-6-8-10将上面的链表A和链表B合并成一个链表C，最终的顺序：链表C：1-2-3-4-5-6-7-8-9-10解决使用归并排序中的合并阶段进行合并排序操作public class guibing_list { public static void main(Stri...

2019-03-27 19:57:00 596

转载归并排序 - 对一个数组进行排序

第一步：做数组的拆分 //归并排序 public static void sort(int[] arr){ int[] tmp = new int[arr.length]; int left = 0 ; int right = arr.length-1 ; sortMerge(arr ,...

2019-03-27 19:37:00 1010

转载 spark的bulkload报错及解决

需求将HDFS上的数据解析出来，然后通过hfile方式批量写入Hbase（需要多列写入）写入数据的关键api：rdd.saveAsNewAPIHadoopFile( stagingFolder, classOf[ImmutableBytesWritable], classOf[KeyValue], ...

2019-03-26 22:03:00 794

转载算法：返回字符串中不重复的第一个字符串

package algorithmimport java.util/** * Created by angel； */object findStr { def main(args: Array[String]): Unit = { val str = "dddffffssxsadc" val toArray: Array[...

2019-03-17 17:52:00 280

转载 flink⼿手动维护kafka偏移量量

flink对接kafka，官方模式方式是自动维护偏移量但并没有考虑到flink消费kafka过程中，如果出现进程中断后的事情! 如果此时，进程中段:1:数据可能丢失从获取了了数据，但是在执⾏行行业务逻辑过程中发⽣生中断，此时会出现丢失数据现象2:数据可能...

2018-05-30 12:34:00 800

转载 Mysql数据实时同步

企业运维的数据库最常见的是 mysql;但是 mysql 有个缺陷:当数据量达到千万条的时候，mysql 的相关操作会变的非常迟缓; 如果这个时候有需求需要实时展示数据;对于 mysql 来说是一种灾难;而且对于 mysql 来说，同一时间还要给多个开发人员和用户操作; 所以经过调研，将 mysql 数据实时同步到 hbase 中;最开始使用的架构方案:...

2018-05-24 20:46:00 416

转载 Flink--将表转换为DataStream或DataSet

A Table可以转换成a DataStream或DataSet。通过这种方式，可以在Table API或SQL查询的结果上运行自定义的DataStream或DataSet程序将表转换为DataStream有两种模式可以将 Table转换为DataStream：1：Append Mode将一个表附加到流上2：Retract Mode将表转换为流语法格式：...

2018-05-23 20:32:00 1097

空空如也

空空如也