自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(17)
  • 收藏
  • 关注

原创 HIVESQL IN 和 NOT IN

NULL这一行不会记到最终的输出结果里,这可能和我们的初衷有偏差,我们只是不要a,b的这个集合,这样算出的结果会少于我们理想的输出结果。如果是whereanotin(‘a’,‘b’)的时候,如果a列有NULL值的时候,这时候。whereain(‘a’,‘b’)指的是就只筛选出a等于a和b的集合,这个来说没什么问题。in和notin返回的是布尔值,在遇到NULL值的时候不会返回true和false。hivesql在编写过程中难免会使用到in和notin的操作。...

2022-07-19 11:39:23 2568 1

原创 mysql如何在线清理慢日志 mysql-slow.log

mysql如何在线优雅的清理慢日志今天上班之后发现跑的sql出现了错误,一开始以为是sql的原因,查看了具体日志后,报错信息为no space left on device(路径)意思就是没有充足的空间了于是查看了服务器磁盘内存,果然发现有一个盘使用了99%根据路径查看,发现mysql目录下的mysql-slow.log 占用了很大的空间于是通过查资料,解决了这一问题,跟大家分享一下首先进入mysql,查看慢日志状态显示mysql_query_log是开启的状态1、先关闭slow_que

2021-02-26 15:20:45 2072

原创 MySQL metadata Lock锁监控预警

1、metadata Lock 简述为了在并发环境下维护表元数据的数据一致性,在表上有活动事务(显式或隐式)的时候,不可以对元数据进行写入操作。因此从MySQL5.5版本开始引入了MDL锁(metadata lock),来保护表的元数据信息,用于解决或者保证DDL操作与DML操作之间的一致性。对于引入MDL,其主要解决了2个问题,一个是事务隔离问题,比如在可重复隔离级别下,会话A在2次查询期间,会话B对表结构做了修改,两次查询结果就会不一致,无法满足可重复读的要求;另外一个是数据复制的问题,比如会话A执

2020-11-19 15:20:40 342

原创 azkaban通过WEBUI界面参数传递

azkaban通过WEBUI界面参数传递1、首先创建一个测试任务流用于参数传递的测试2、点击执行流按钮弹出如下界面3、点击流参数按钮通过key-value的形式添加参数,我这里的参数变量是ui_test,值是一个azkaban内置的时间函数4、点击schedule按钮来设置这个工作流的执行时间(这样每次执行可以把设置的参数传递进去)5、这里选择了默认设置,即每分钟执行一次,点击schedule这里顺便看一下我的job文件是如何来接收参数的test1.jobtest2.job这

2020-10-29 11:38:11 873

原创 Elasticsearch 详细介绍

(1)思考:大规模数据如何检索?如:当系统数据量上了10亿、100亿条的时候,我们在做系统架构的时候通常会从以下角度去考虑问题:1)用什么数据库好?(mysql、sybase、oracle、达梦、神通、mongodb、hbase…)2)如何解决单点故障;(lvs、F5、A10、Zookeep、MQ)3)如何保证数据安全性;(热备、冷备、异地多活)4)如何解决检索难题;(数据库代理中间件:mysql-proxy、Cobar、MaxScale等;)5)如何解决统计分析问题;(离线、近实时)(2)传

2020-07-13 13:40:22 399

原创 ES7.8 安装

环境CentOS7.4elasticsearch-7.8.0jdk8下载Linux版本的elasticsearch安装包https://www.elastic.co/cn/downloads/past-releases安装集群在每个节点上的安装步骤基本上都是一样的,我以一个节点为例下载完成之后通过ftp上传到linux服务器指定目录下,比如:/opt/elasticsearch-7.8.0.tar.gz1.解压安装包并命名cd /opt/tar -zxvf elasticsearch-7

2020-07-13 13:28:20 1311

原创 postgresql 运行报错 FATAL: could not map anonymous shared memory

修改内核参数vi /etc/sysctl.conf# vi /etc/sysctl.confvm.overcommit_memory = 2vm.overcommit_ratio = 90vm.swappiness = 1# sysctl -psysctl -p 需要耐心等待一段时间查看内存# ls -l /proc/self/oom_*-rw-r--r-- 1 root root 0 Dec 26 14:18 /proc/self/oom_adj-r--r--r-- 1 root

2020-07-06 14:23:42 455

原创 postgresql 性能参数调优

**max_connections = 300 # (change requires restart)unix_socket_directories = '.' # comma-separated list of directoriesshared_buffers = 194GB # 尽量用数据库管理内存,减少双重缓存,提高使用效率huge_pages = on # on, off, or try ,使用大页work_mem = 256MB # mi

2020-07-06 14:13:48 399

原创 MySQL之空间函数**ST_Distance_Sphere

MySQL之空间函数ST_Distance_Sphere用来计算两个经纬度之间的球体距离SELECT ST_Distance_Sphere(POINT(116.4025249,39.9251859),POINT(116.4025249,39.9250644)) AS distant;上述算出的单位是米接下来尝试一下建表CREATE TABLE `map` ( `id` int(11) NOT NULL, `address` varchar(255) NOT NULL DEFAULT '',

2020-05-19 18:19:30 2176

原创 spark 任务详解

以下是我对spark任务提交的理解1、将我们编写的程序打成jar包2、调用spark-submit脚本提交任务到集群上运行3、运行sparkSubmit的main方法,在这个方法中通过反射的方式创建我们编写的主类的实例对象,然后调用main方法,开始执行我们的代码(注意,我们的spark程序中的driver就运行在sparkSubmit进程中)4、当代码运行到创建SparkContext对...

2020-03-14 11:30:02 459

原创 hive之行转列,列转行

table1column1column2a1a2a3b1b2b3table2column1seta1,2,3b1,2,31、思考,如何能将table1改变成table2呢?答案:用concat_ws()用来拼接,用collect_set()用来收集select column1,conca...

2020-03-11 14:10:28 140

原创 hive之窗口函数

sum(),avg(),count(),max(),min()等聚合函数,可以直接使用over()进行分区计算基本语句rows between n preceding | unbounded preceding and current row | n flowing |unbounded flowing窗口函数的限定语法为:rows between 一个时间点 and 一个时间点,时间点可以...

2020-03-10 20:36:05 159

原创 SQL中count(*),count(1),count(列名)

count(*) 和count(1) 是对全局的count,如果中间有空值也会算作一行count(列名) 是对某一列进行count,如果这一列中有空值不会算作一行

2020-03-10 19:47:10 209

原创 SQL查询语句中的顺序

思考:为什么我们在写SQL时,where条件不能使用之前定义的列别名呢?SQL查询顺序依次为:1.from2.on3.where4.group by5.having6.select7.union8.order by9.limit以上就是SQL语句执行的顺序,这就是为什么where条件不能用列别名而order 不用可以用列别名的原因...

2020-03-10 19:43:07 315

原创 hive中常见的问题以及解决方案

hive中常见的问题以及解决方案1.hive表关联查询,如何解决数据倾斜问题?倾斜原因:map输出数据按照key的hash分配到reduce中区,由于key分布不均匀,或者业务数据本身问题等造成reduce上的数据量差异过大解决方案:(1)参数调节hive.map.aggr = truehive.groupby.skuwindata = true有数据倾斜的时候进行负载均衡,当选项设...

2020-03-10 15:12:39 1941 3

原创 sql中on和where的区别

sql 中 on 和 wher e的区别我们在查询一条语句时候,会返回我们一张临时表,最终将这张临时表返回给我们以left join 为例:on:如果将连接条件写到on中,无论你的条件语句是否为真,结果都会返回左表中的全部内容,右表中没有的话则值为NANwhere:会对生成的临时表再进行筛选过滤,此时已经没有left join 的含义(返回左表的全部内容),所以where条件不为真的内容就...

2020-03-10 09:37:46 134

原创 hive中四种排序的区别

hive中有四种排序,分别是:order by,sort by,distribute by(重点),cluster byorder by:全局排序,但是只能有一个reduce来处理,在严格模式下必须指定limit,否则会报错,在数据量很大的时候,处理时间会很长甚至跑不出数据,慎用!sort by:对每个reduce端的结果进行排序,但是不对全局进行排序,可以设置mapred.reduce.ta...

2020-03-09 20:11:39 785

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除