自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(16)
  • 收藏
  • 关注

原创 IDEA中gradle项目打包成jar包时报错:无效的源发行版: 11

解决IDEA中gradle项目打包报错问题

2022-07-12 10:41:40 1075 1

原创 Navicat 闪退,破案了

问题日常打开Navicat使用过程中,经常遇到 “闪退” 的情况发生,工作中让人很不舒服。研究了好久也没找到导致该问题出现的根本原因。破案终于,在一次无意中有了惊人的发现:当我没有打开 “网易有道词典” 时,Navicat 并没有闪退。而,当我打开了 “网易有道词典” 时,Navicat 就会频频出现闪退的情况。解决在使用网易有道词典时,只要鼠标划取了中文词语,网易有道词典就会进行翻译,感觉不太舒服。于是,我把网易有道词典的 “取词” 功能关闭了,后来发现即使打开网易有道词典,Navicat 也并

2020-09-21 16:21:08 7818 4

原创 datanode无法启动Block pool ID needed, but service not yet registered with NN

内容描述服务器的datanode在启动时报Block pool ID needed, but service not yet registered with NN,报错内容:2020-08-29 20:40:26,224 WARN org.apache.hadoop.hdfs.server.datanode.DataNode: Block pool ID needed, but service not yet registered with NN, trace:java.lang.Exception

2020-09-11 09:46:33 5139 1

原创 HDFS报EOFException异常

现象大晚上的收到线上DataNode挂掉异常的报警,值班同学随即做了重启处理,重启完成后,进程虽然在运行,但是NameNode的WebUI上显示大量的block丢失。There are 12622047 missing blocks.Number of Under-Replicated Blocks 14436901重新启动的DataNode节点block数量为0,明显不正常HDFS在对丢失的block做恢复,missing blocks的数量在减少,但是丢失的的太多了,恢复速度很慢,这种情况肯定

2020-08-31 14:04:47 1702

原创 id-mapping 理解和实现

一、id-mapping概述在后续的数仓、画像、推荐等模块开发中,我们都需要对每一条行为日志数据标记用户的唯一标识!简单的方案是将这条数据中的uid/imei码/imsi码/mac/androidid/uuid这些字段(标识字段)按优先级取一个标识,作为这条数据的用户唯一标识!这个方案有严重的漏洞!现实的无奈在现实的日志数据中,由于,用户可能使用各种各样的设备,有着各种各样的前端入口,甚至同一个用户拥有多个设备以及使用多种前端入口,就会导致,日志数据中对同一个人,不同时间段所收集到的日志数据中,

2020-08-29 17:30:03 20020 6

原创 请求高德地图API服务

1、导论由于公司自己的地理位置知识库是不完备的,每日的流量数据预处理中,有一些gps坐标是解析不出地理位置信息的;我们可以将这些解析不出来的gps坐标,单独过滤出来,然后通过请求高德地图服务来解析,并将解析结果追加到我们的地理位置知识库中,知识库就可以日益充实和完善!高德地图,提供各类地理位置处理功能的web服务接口!我们的流量数据中,有一些gps坐标无法从公司内部的地理位置字典中查询到位置信息,就可以把这些gps拿去请求高德的web服务,获取地理位置信息,并丰富公司内部的地理位置知识字典!2、高

2020-08-29 17:19:09 1073

原创 hive多重插入语法

从一个表中,写多种查询逻辑,并将结果输出到多个不同表(分区)语法:from t_xinsert into t_dest partition(p=’p1’)select …… where …….insert into t_dest partition(p=’p2’)select …… where …….

2020-08-29 17:08:47 992

原创 hive动态分区

指定一个目标分区时,不用写死,而是用查询出来的某个字段的值作为分区值注意,有一个分区严格模式开关:关闭严格模式!set hive.exec.dynamic.partition.mode=nonstrictinsert into table t_x partition(dt)select id,name,dt from t_y;注意,动态分区字段应该作为select中最后一个字段...

2020-08-29 17:07:46 141

原创 Spark任务运行时依赖jar

可以通过 --jars 添加依赖到executor的运行时环境中还可以通过 --driver-class-path 添加依赖到driver的运行时环境中当然,最省事的办法: 把需要的依赖都打进自己的程序jar中命令模板示例:bin/spark-submit \--class cn.doitedu.data.pre.ApplogPreprocess \--master yarn \--deploy-mode client \--num-executors 3 \--executor-mem

2020-08-29 16:58:12 455

原创 Linux定时任务配置

Linux中有一个功能模块叫crond,它是一个定时调度服务,它会按照用户配置的方案,定时帮用户去启动一个程序(脚本)crond(通常称呼为crontab)的配置方法:crontab -e 编辑定时配置crontab –e0 1 * * * /root/bin/a.sh0 2 * * * /root/bin/b.sh0 3 * * * /root/bin/c.sh0 4 * * * /root/bin/d.sh这将会在每天早上1点运行 /root/bin/a.sh这将会在每天早上2点运行

2020-08-29 16:55:40 335

转载 一步一步带你入门MySQL中的索引和锁

索引索引常见的几种类型索引常见的类型有哈希索引,有序数组索引,二叉树索引,跳表等等。本文主要探讨 MySQL 的默认存储引擎 InnoDB 的索引结构。InnoDB的索引结构在InnoDB中是通过一种多路搜索树——B+树实现索引结构的。在B+树中是只有叶子结点会存储数据,而且所有叶子结点会形成一个链表。而在InnoDB中维护的是一个双向链表。你可能会有一个疑问,为什么使用 B+树 而不使用二叉树或者B树?首先,我们知道访问磁盘需要访问到指定块中,而访问指定块是需要 盘片旋转 和 磁臂移动 的,这

2020-08-25 16:57:31 176

原创 yum install报failure: repodata/repomd.xml from cloudera-manager: [Errno 256] No more mirrors to try.

记录一下刚刚yum install的时候报的这个错:failure: repodata/repomd.xml from cloudera-manager: [Errno 256] No more mirrors to try.http://10.251.7.204/cloudera-repos/cm6/repodata/repomd.xml: [Errno 14] HTTP Error 403 - Forbidden原因:因为这台机器我之前安装了CDH,卸载的时候没有卸载干净导致的。安装CDH的时候

2020-07-03 16:24:56 2592 1

原创 kafka 的 Log Compaction 简单使用测试

最近公司需要对存储在kafka的日志做一些特殊处理,要求对每个设备只存储最后一条日志数据,也就是需要根据key进行日志更新和保留,删除重复的key日志数据,因此想到了kafka的Log Compaction。通过kafka官网能了解到Log Compaction是什么?能做什么?官网介绍的使用其实很简单,只需进行参数配置即可。但是具体的实施并不那么简单,我在测试中也是出现了很多问题,反复琢磨后才...

2019-10-08 14:38:47 880

原创 es查询出有47213条数据,bulk批量存入es时只存入了9条,请问是啥原因????

es查询出有47213条数据,bulk批量存入es时只存入了9条,请问是啥原因????

2019-09-04 11:14:39 749

原创 使用es的BulkRequest API查询时,只能打印出部份数据问题

各位大神,我使用BulkRequest查询es,设置按指定的两个条件查询,但只出来部份数据,这是什么原因呢?比如我有150条数据,每次只能查询出10条数据。

2019-09-03 15:15:24 1017

原创 spark-ES报错current license is non-compliant for [security]

我在使用spark写es程序运行时报错:Exception in thread “main” org.elasticsearch.hadoop.rest.EsHadoopInvalidRequest: current license is non-compliant for [security]我的ES集群是在云端,只设置了账号密码,我在代码中也设置了账号密码。我用spring和API开发的就可...

2019-08-16 14:47:07 1176

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除