lxc950318-CSDN博客

原创 HIVESQL IN 和 NOT IN

NULL这一行不会记到最终的输出结果里，这可能和我们的初衷有偏差，我们只是不要a,b的这个集合，这样算出的结果会少于我们理想的输出结果。如果是whereanotin(‘a’,‘b’)的时候，如果a列有NULL值的时候，这时候。whereain(‘a’,‘b’)指的是就只筛选出a等于a和b的集合，这个来说没什么问题。in和notin返回的是布尔值，在遇到NULL值的时候不会返回true和false。hivesql在编写过程中难免会使用到in和notin的操作。...

2022-07-19 11:39:23 2568 1

原创 mysql如何在线清理慢日志 mysql-slow.log

mysql如何在线优雅的清理慢日志今天上班之后发现跑的sql出现了错误，一开始以为是sql的原因，查看了具体日志后，报错信息为no space left on device（路径）意思就是没有充足的空间了于是查看了服务器磁盘内存，果然发现有一个盘使用了99%根据路径查看，发现mysql目录下的mysql-slow.log 占用了很大的空间于是通过查资料，解决了这一问题，跟大家分享一下首先进入mysql，查看慢日志状态显示mysql_query_log是开启的状态1、先关闭slow_que

2021-02-26 15:20:45 2072

原创 MySQL metadata Lock锁监控预警

1、metadata Lock 简述为了在并发环境下维护表元数据的数据一致性，在表上有活动事务（显式或隐式）的时候，不可以对元数据进行写入操作。因此从MySQL5.5版本开始引入了MDL锁（metadata lock），来保护表的元数据信息，用于解决或者保证DDL操作与DML操作之间的一致性。对于引入MDL，其主要解决了2个问题，一个是事务隔离问题，比如在可重复隔离级别下，会话A在2次查询期间，会话B对表结构做了修改，两次查询结果就会不一致，无法满足可重复读的要求；另外一个是数据复制的问题，比如会话A执

2020-11-19 15:20:40 342

原创 azkaban通过WEBUI界面参数传递

azkaban通过WEBUI界面参数传递1、首先创建一个测试任务流用于参数传递的测试2、点击执行流按钮弹出如下界面3、点击流参数按钮通过key-value的形式添加参数，我这里的参数变量是ui_test，值是一个azkaban内置的时间函数4、点击schedule按钮来设置这个工作流的执行时间（这样每次执行可以把设置的参数传递进去）5、这里选择了默认设置，即每分钟执行一次，点击schedule这里顺便看一下我的job文件是如何来接收参数的test1.jobtest2.job这

2020-10-29 11:38:11 873

原创 Elasticsearch 详细介绍

（1）思考：大规模数据如何检索？如：当系统数据量上了10亿、100亿条的时候，我们在做系统架构的时候通常会从以下角度去考虑问题：1）用什么数据库好？(mysql、sybase、oracle、达梦、神通、mongodb、hbase…)2）如何解决单点故障；(lvs、F5、A10、Zookeep、MQ)3）如何保证数据安全性；(热备、冷备、异地多活)4）如何解决检索难题；(数据库代理中间件：mysql-proxy、Cobar、MaxScale等;)5）如何解决统计分析问题；(离线、近实时)（2）传

2020-07-13 13:40:22 399

原创 ES7.8 安装

环境CentOS7.4elasticsearch-7.8.0jdk8下载Linux版本的elasticsearch安装包https://www.elastic.co/cn/downloads/past-releases安装集群在每个节点上的安装步骤基本上都是一样的，我以一个节点为例下载完成之后通过ftp上传到linux服务器指定目录下，比如：/opt/elasticsearch-7.8.0.tar.gz1.解压安装包并命名cd /opt/tar -zxvf elasticsearch-7

2020-07-13 13:28:20 1311

原创 postgresql 运行报错 FATAL: could not map anonymous shared memory

修改内核参数vi /etc/sysctl.conf# vi /etc/sysctl.confvm.overcommit_memory = 2vm.overcommit_ratio = 90vm.swappiness = 1# sysctl -psysctl -p 需要耐心等待一段时间查看内存# ls -l /proc/self/oom_*-rw-r--r-- 1 root root 0 Dec 26 14:18 /proc/self/oom_adj-r--r--r-- 1 root

2020-07-06 14:23:42 455

原创 postgresql 性能参数调优

**max_connections = 300 # (change requires restart)unix_socket_directories = '.' # comma-separated list of directoriesshared_buffers = 194GB # 尽量用数据库管理内存，减少双重缓存，提高使用效率huge_pages = on # on, off, or try ，使用大页work_mem = 256MB # mi

2020-07-06 14:13:48 399

原创 MySQL之空间函数**ST_Distance_Sphere

MySQL之空间函数ST_Distance_Sphere用来计算两个经纬度之间的球体距离SELECT ST_Distance_Sphere(POINT(116.4025249,39.9251859),POINT(116.4025249,39.9250644)) AS distant;上述算出的单位是米接下来尝试一下建表CREATE TABLE `map` ( `id` int(11) NOT NULL, `address` varchar(255) NOT NULL DEFAULT '',

2020-05-19 18:19:30 2176

原创 spark 任务详解

以下是我对spark任务提交的理解1、将我们编写的程序打成jar包2、调用spark-submit脚本提交任务到集群上运行3、运行sparkSubmit的main方法，在这个方法中通过反射的方式创建我们编写的主类的实例对象，然后调用main方法，开始执行我们的代码（注意，我们的spark程序中的driver就运行在sparkSubmit进程中）4、当代码运行到创建SparkContext对...

2020-03-14 11:30:02 459

原创 hive之行转列，列转行

table1column1column2a1a2a3b1b2b3table2column1seta1,2,3b1,2,31、思考，如何能将table1改变成table2呢？答案：用concat_ws()用来拼接，用collect_set()用来收集select column1,conca...

2020-03-11 14:10:28 140

原创 hive之窗口函数

sum(),avg(),count(),max(),min()等聚合函数，可以直接使用over()进行分区计算基本语句rows between n preceding | unbounded preceding and current row | n flowing |unbounded flowing窗口函数的限定语法为：rows between 一个时间点 and 一个时间点，时间点可以...

2020-03-10 20:36:05 159

原创 SQL中count(*),count(1),count(列名)

count(*) 和count(1) 是对全局的count，如果中间有空值也会算作一行count(列名) 是对某一列进行count，如果这一列中有空值不会算作一行

2020-03-10 19:47:10 209

原创 SQL查询语句中的顺序

思考：为什么我们在写SQL时，where条件不能使用之前定义的列别名呢？SQL查询顺序依次为：1.from2.on3.where4.group by5.having6.select7.union8.order by9.limit以上就是SQL语句执行的顺序，这就是为什么where条件不能用列别名而order 不用可以用列别名的原因...

2020-03-10 19:43:07 315

原创 hive中常见的问题以及解决方案

hive中常见的问题以及解决方案1.hive表关联查询，如何解决数据倾斜问题？倾斜原因：map输出数据按照key的hash分配到reduce中区，由于key分布不均匀，或者业务数据本身问题等造成reduce上的数据量差异过大解决方案：（1）参数调节hive.map.aggr = truehive.groupby.skuwindata = true有数据倾斜的时候进行负载均衡，当选项设...

2020-03-10 15:12:39 1941 3

原创 sql中on和where的区别

sql 中 on 和 wher e的区别我们在查询一条语句时候，会返回我们一张临时表，最终将这张临时表返回给我们以left join 为例：on：如果将连接条件写到on中，无论你的条件语句是否为真，结果都会返回左表中的全部内容，右表中没有的话则值为NANwhere：会对生成的临时表再进行筛选过滤，此时已经没有left join 的含义（返回左表的全部内容），所以where条件不为真的内容就...

2020-03-10 09:37:46 134

原创 hive中四种排序的区别

hive中有四种排序，分别是：order by,sort by,distribute by（重点）,cluster byorder by：全局排序，但是只能有一个reduce来处理，在严格模式下必须指定limit，否则会报错，在数据量很大的时候，处理时间会很长甚至跑不出数据，慎用！sort by：对每个reduce端的结果进行排序，但是不对全局进行排序，可以设置mapred.reduce.ta...

2020-03-09 20:11:39 785

lxc950318