自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

  • 博客(169)
  • 收藏
  • 关注

转载 关于centos6版本执行程序报错:libc.so.6: version GLIBC_2.14 not found的解决

执行后程序报错:libc.so.6: version GLIBC_2.14 not found这种情况是因为当前服务器glibc的版本比较低造成的(不出意外是glibc_2.12是最高版本);1、首先通过命令查看服务器的glibc的版本strings /lib64/libc.so.6 |grep GLIBC_ GLIBC_2.2.5GLIBC_2.2....

2019-09-06 16:17:00 551

转载 记一次phoenix在不加索引的情况调优,由6s以上时间变成不到1s

背景:网约车预约单查询:这里面恶心的地方是:1个时间窗口要查询6种时间:推送订单时间(来自mongodb)、有效抢单时间(来自mongodb)、抢单成功时间(实时kafka)、取消订单时间(实时kafka)、到达目的地时间(实时kafka)、支付时间(实时kafka)根据现实的业务情况,乘客即便打车了,也不是立马支付,很可能过些天才支付。所以不能做表关联,否...

2019-08-20 22:02:00 386

转载 maxwell的数据引导方式

INSERT INTO maxwell.bootstrap (database_name, table_name,where_clause) VALUES ('och_prd', 'order_info_201907','create_time >= '2019-07-18'');INSERT INTO maxwell.bootstrap (database_name,...

2019-07-30 22:10:00 331

转载 记一次springboot+mybatis+phoenix在代码集成中的坑

场景:希望使用phoenix做查询服务,给服务端提供接口设计:通过springboot做restful的接口发布,通过mybatis做phoenix的sql处理,因此是springboot+mybatis+phoenix的集成方案;但是会遇到一个坑!=========================================我是华丽的分割线=========...

2019-07-23 21:23:00 621

转载 关于hbase的数据迁移

场景:一套自己编译的Hbase集群 A一套自己通过cloudera平台搭建的Hbase集群 B注意:( 我的两套集群是同一个网段的)方式1:通过快照方式进行数据迁移(不需要提前建表)1):首先现在老集群A上进行快照制作(hbase命令行)hbase> snapshot '要快照的表名tableA' , '快照名称snapA'查看快照:l...

2019-07-20 17:45:00 358

转载 关于phoenix构建hbase视图,更新hbase表后,视图表是否更新的验证

1:创建表create 'MY_TABLE', 'CF1','CF2'2:在hbase上插入一条数据put 'MY_TABLE','1' ,'CF1:V1', 'uwo1'3:在phoenix上创建视图create view MY_TABLE (PK varchar primary key, CF1.V1 varchar, CF2.V2 va...

2019-07-09 14:27:00 223

转载 记一次maxwell报错:Couldn't find table 'violation_info' in database och_evcard_data

往常maxwell是正常跑的,但是突然今天报错:Couldn't find table 'violation_info' in database och_evcard_data而且这个库和这个表,可以肯定的是,完全不是自己想要的(在include中过滤出来的)解决:进入mysql的Maxwell库,然后:清空columns,tables,schema...

2019-07-03 18:32:00 769

转载 记一次protobuf和hbase自带protobuf版本冲突的解决

使用protobuf生产模板代码,使用的版本是:<dependency> <groupId>com.google.protobuf</groupId> <artifactId>protobuf-java</artifactId> &l...

2019-07-02 18:38:00 1471

转载 记一次关于springboot的netty版本冲突问题

冲突的地放其实很多,大概都是类似,找不到哪个方法了:类似于:Error starting ApplicationContext. To display the conditions report re-run your application with 'debug' enabled.19/07/02 16:07:02 ERROR boot.SpringAppl...

2019-07-02 16:29:00 3074

转载 struct streaming中的监听器StreamingQueryListener

在struct streaming提供了一个类,用来监听流的启动、停止、状态更新StreamingQueryListener实例化:StreamingQueryListener 后需要实现3个函数:abstract class StreamingQueryListener {import StreamingQueryListener._/**...

2019-05-30 15:26:00 703

转载 关于hive on spark会话的共享状态

spark sql中有一个类:org.apache.spark.sql.internal.SharedState它是用来做:1、元数据地址管理(warehousePath)2、查询结果缓存管理(cacheManager)3、程序中的执行状态和metrics的监控(statusStore)4、默认元数据库的目录管理(externalCatalog)5...

2019-05-23 23:33:00 313

转载 记一次Cloudera中页面监控失效问题

因为做了cdh的迁移,启动后所有服务都是正常执行,不影响操作,但是尴尬的是,页面上的图表监控不见了这种情况的根本原因就是:Host Monitor和Service Monitor服务失效!解决:去主节点中的/var/lib目录,然后删掉:cloudera-host-monitor ,cloudera-service-monitor回到cdh的主页,重启...

2019-05-23 09:51:00 258

转载 spark on yarn 动态资源分配报错的解决:org.apache.hadoop.yarn.exceptions.InvalidAuxServiceException: The auxServi...

组件:cdh5.14.0spark是自己编译的spark2.1.0-cdh5.14.0第一步:确认spark-defaults.conf中添加了如下配置:spark.shuffle.service.enabled true //启用External shuffle Service服务spark.shuffle.service.port 7337 /...

2019-05-09 10:41:00 188

转载 sparkOnYarn报错org.apache.hadoop.fs.FSDataInputStream

Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/hadoop/fs/FSDataInputStream at org.apache.spark.deploy.SparkSubmitArguments.handleUnknown(SparkSubmitArguments.sca...

2019-05-08 15:05:00 807

转载 记一次newApiHadoopRdd查询数据不一致问题

现象:+----------+-------+--------+-----+-----+-----+----+----+------+---------+-------+--------+--------+------------+|totalCount|January|February|March|April| May|June|July|August|Septembe...

2019-05-07 12:46:00 252

转载 记一次sparkOnyarn错误:java.lang.UnsatisfiedLinkError

错误大概这样:Caused by: java.util.concurrent.ExecutionException: Boxed ErrorCaused by: java.lang.UnsatisfiedLinkError: /opt/cdh/hadoop-2.6.0-cdh5.14.0/tmp/nm-local-dir/usercache/root/appcac...

2019-05-06 10:23:00 677

转载 关于自定义sparkSQL数据源(Hbase)操作中遇到的坑

自定义sparkSQL数据源的过程中,需要对sparkSQL表的schema和Hbase表的schema进行整合;对于spark来说,要想自定义数据源,你可以实现这3个接口:BaseRelation 代表了一个抽象的数据源。该数据源由一行行有着已知schema的数据组成(关系表)。TableScan 用于扫描整张表,将数据返回成RDD[Row]。Relati...

2019-05-01 23:34:00 213

转载 sparkStreaming运行yarn,提交任务报错

op.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch.call(ContainerLaunch.java:302) at org.apache.hadoop.yarn.server.nodemanager.containermanager.launcher.ContainerLaunch...

2019-04-29 20:10:00 328

转载 关于hadoop的运行的一些指标监控(非cdh平台的)

在hadoop-env.sh中添加:# 在配置namenode和datanode时都会有用到JMX_OPTS的代码,是为了减少重复提取出的公共代码export JMX_OPTS="-Dcom.sun.management.jmxremote -Dcom.sun.management.jmxremote.authenticate=false -Dcom.sun.manageme...

2019-04-29 18:04:00 482

转载 给hive的metastore做JVM优化

最近在测试环境下,hive的metastore不稳定,于是做一次JVM优化在hive-env.sh中export HADOOP_HOME=/opt/cdh/hadoop-2.6.0-cdh5.14.0if [ "$SERVICE" = "cli" ]; then if [ -z "$DEBUG" ]; then export HADOOP_OP...

2019-04-29 17:38:00 950

转载 编译phoneix源码,整合Hbase

Hbase版本:1.2.0-cdh5.14.01):下载phoneix源码链接:https://pan.baidu.com/s/1uryK_jLEekdXV04DRc3axg 密码:bkqg2):解压后,更改pom文件,指定你需要的cdh版本因为我的是CDH5.14.0,所以要更改为我的版本注意:需要更改所有的pom文件,把版本指定;3):...

2019-04-29 11:31:00 95

转载 关于snappy的压缩 hadoop和hbase均支持

临时做个随笔下载snappy-1.1.1.tar.gz解压后需要提前安装:yum -y update gccyum -y install gcc+ gcc-c++=======================然后在解压后的snappy目录执行:./confuratimakemake install解压完毕会在/usr/local/lib下剩下:...

2019-04-29 01:04:00 102

转载 实时同步到Hbase的优化-1

最近没有管测试环境的,上去看了下,好家伙,kafka羁留了上百万数据,于是打算把数据同步到测试的Hbase库中,在这期间发现了插入性能问题def putMapData(tableName: String , columnFamily:String, key:String , mapData:Map[String , String]) = { val start...

2019-04-28 18:58:00 76

转载 关于Hbase的预分区,解决热点问题

Hbase默认建表是只有一个分区的,开始的时候所有的数据都会查询这个分区,当这个分区达到一定大小的时候,就会进行做split操作;因此为了确保regionserver的稳定和高效,应该尽量避免region分裂和热点的问题;那么有的同学在做预分区的时候,可能是按照:1):通过Hbase提供的api:bin/hbase org.apache.hadoop.hbase....

2019-04-27 21:13:00 346

转载 网约车的车辆热点聚类1

类似Uber,需要处理处不同时间段的不同地区的订单热点区域,帮助进行网约车的及时调度处理每个成交单Order中,都会有订单上车位置的起始经纬度:open_lat , open_lng那么在这个时间段内,哪些地区是高密集订单区域,好进行及时的调度,所以需要得到不同地区的热力图初期想法是基于经纬度做聚类操作,典型的聚类算法是K- means,一种基于层次的聚类操作:...

2019-04-27 20:52:00 475

转载 关于Hbase开启snappy压缩

版本:自己编译的hbase-1.2.0-cdh5.14.0默认情况下,Hbase不开启snappy压缩 ,所以在hbase的lib/native目录下什么也没有(我的前提是执行hadoop checknative可以看到hadoop是支持snappy的)第一步:需要将snappy-java-1.0.4.1.jar放在hbase的native目录下:可以去had...

2019-04-27 16:42:00 533

转载 关于定时脚本crontab的坑

需求:每分钟执行一次程序,将处理后的数据写入mongodb最初做法:1):写crontab没有响应,于是打算通过shell脚本的while true来执行当时sb,没控制时间内,而且我还是用nohup XXXX.sh 2>&1 &结果就是,几乎每一个瞬间启动一个jar,服务器内存瞬间沾满解决:利用awk命令处理kill -...

2019-04-27 14:18:00 167

转载 记一次Hbase的行键过滤器事故问题

数据总数:746条数据因为后面需要进行算法合成,而且spark目前对这种算法支持并不好,因此采用代码编写,所以在查询hbase的过程中采用的是java直接查询,但是为了加快查询速度,我尽可能的使用了过滤器1:初期Hbase的rowkey组合:时间+"_"+订单id查询思路:1:能快速检索,减少GC,采用过滤器2:支持时间段查询根据上面两点,...

2019-04-18 23:29:00 177

转载 关于如何通过反射获取函数名称

反射的包名:reflect步骤:1:根据传入函数获取函数的指针2:通过指针获取函数名称代码:func apply(op func(int , int) int , a,b int) int{ pointer:= reflect.ValueOf(op).Pointer() funcName := runtime.FuncForPC(po...

2019-04-13 17:49:00 535

转载 Hbase写Hfile报错:Trying to load more than 32 hfiles to one family of one region

在写Hfile的时候 ,如果一个family下超过了默认的32个hfile,就会报如下错误:ERROR mapreduce.LoadIncrementalHFiles: Trying to load more than 32 hfiles to family d of region with start keyException in thread "main" j...

2019-04-10 13:29:00 795

转载 面试题:分层打印二叉树

需求:树的结构// 1// / \// 2 3// / \ / \// 4 5 6 7需要按照如下的方式进行打印:12 , 34 , 5 , 6 , 7分析:本文...

2019-03-30 20:18:00 106

转载 Hbase合并Region的过程中出现永久RIT的解决

在合并Region的过程中出现永久RIT怎么办?笔者在生产环境中就遇到过这种情况,在批量合并Region的过程中,出现了永久MERGING_NEW的情况,虽然这种情况不会影响现有集群的正常的服务能力,但是如果集群有某个节点发生重启,那么可能此时该RegionServer上的Region是没法均衡的。因为在RIT状态时,HBase是不会执行Region负载均衡的,即使手动执行balance...

2019-03-30 15:47:00 499

转载 HBase总结 LSM理解

转载的文章,觉得写的比较好讲LSM树之前,需要提下三种基本的存储引擎,这样才能清楚LSM树的由来:哈希存储引擎 是哈希表的持久化实现,支持增、删、改以及随机读取操作,但不支持顺序扫描,对应的存储系统为key-value存储系统。对于key-value的插入以及查询,哈希表的复杂度都是O(1),明显比树的操作O(n)快,如果不需要有序的遍历数据,哈希表就是your Mr.Ri...

2019-03-30 14:26:00 86

转载 归并排序-对两个有序链表合并成一个有序链表

需求两个量表:链表A:1-3-5-7-9链表B:2-4-6-8-10将上面的链表A和链表B合并成一个链表C,最终的顺序:链表C:1-2-3-4-5-6-7-8-9-10解决使用归并排序中的合并阶段进行合并排序操作public class guibing_list { public static void main(Stri...

2019-03-27 19:57:00 593

转载 归并排序 - 对一个数组进行排序

第一步:做数组的拆分 //归并排序 public static void sort(int[] arr){ int[] tmp = new int[arr.length]; int left = 0 ; int right = arr.length-1 ; sortMerge(arr ,...

2019-03-27 19:37:00 1000

转载 spark的bulkload报错及解决

需求将HDFS上的数据解析出来,然后通过hfile方式批量写入Hbase(需要多列写入)写入数据的关键api:rdd.saveAsNewAPIHadoopFile( stagingFolder, classOf[ImmutableBytesWritable], classOf[KeyValue], ...

2019-03-26 22:03:00 764

转载 算法:返回字符串中不重复的第一个字符串

package algorithmimport java.util/** * Created by angel; */object findStr { def main(args: Array[String]): Unit = { val str = "dddffffssxsadc" val toArray: Array[...

2019-03-17 17:52:00 274

转载 flink⼿手动维护kafka偏移量量

flink对接kafka,官方模式方式是自动维护偏移量但并没有考虑到flink消费kafka过程中,如果出现进程中断后的事情! 如果此时,进程中段:1:数据可能丢失 从获取了了数据,但是在执⾏行行业务逻辑过程中发⽣生中断,此时会出现丢失数据现象2:数据可能...

2018-05-30 12:34:00 776

转载 Mysql数据实时同步

企业运维的数据库最常见的是 mysql;但是 mysql 有个缺陷:当数据量达到千万条的时候,mysql 的相关操作会变的非常迟缓; 如果这个时候有需求需要实时展示数据;对于 mysql 来说是一种灾难;而且对于 mysql 来说,同一时间还要给多个开发人员和用户操作; 所以经过调研,将 mysql 数据实时同步到 hbase 中;最开始使用的架构方案:...

2018-05-24 20:46:00 411

转载 Flink--将表转换为DataStream或DataSet

A Table可以转换成a DataStream或DataSet。通过这种方式,可以在Table API或SQL查询的结果上运行自定义的DataStream或DataSet程序将表转换为DataStream有两种模式可以将 Table转换为DataStream:1:Append Mode将一个表附加到流上2:Retract Mode将表转换为流语法格式:...

2018-05-23 20:32:00 1089

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除