MySQL information_schema.processlist 实战宝典：解锁DBA的监控超能力

杯莫停丶

于 2025-05-21 10:59:05 发布

阅读量555

点赞数 11

文章标签： mysql dba 数据库

本文链接：https://blog.csdn.net/Se_a_/article/details/148106913

版权

一、引言：为什么processlist是DBA的瑞士军刀？

作为MySQL数据库管理员，我们经常会遇到这样的场景：数据库突然变慢，应用程序开始报错，领导焦急地询问原因…这时，information_schema.processlist 就是我们第一时间要使用的诊断工具。不同于教科书式的简单介绍，本文将带你深入实战，揭示processlist不为人知的高级用法和独特见解。

二、基础实战：从入门到精通

2.1 基础查询的隐藏技巧

常规写法：

SELECT * FROM information_schema.processlist;

进阶技巧（添加可读性转换）：

SELECT 
    ID,
    USER,
    HOST,
    DB,
    COMMAND,
    CONCAT(FLOOR(TIME/60), 'm ', MOD(TIME,60), 's') AS TIME_FORMATTED,
    STATE,
    LEFT(INFO, 100) AS SHORT_INFO
FROM information_schema.processlist
ORDER BY TIME DESC;

独特见解：将秒数转换为"分秒"格式更符合人类阅读习惯，LEFT函数防止超长SQL语句影响显示效果

2.2 精准定位问题的黄金查询

查找所有非空闲连接：

SELECT 
    ID,
    USER,
    HOST,
    DB,
    COMMAND,
    TIME,
    STATE,
    LEFT(INFO, 200) AS INFO
FROM information_schema.processlist
WHERE COMMAND NOT IN ('Sleep', 'Binlog Dump', 'Daemon')
ORDER BY TIME DESC
LIMIT 50;

专业提示：排除’Binlog Dump’和’Daemon’等系统线程可以减少干扰

三、高级实战：疑难问题排查三板斧

3.1 第一板斧：锁定"罪魁祸首"线程

查找阻塞源头（独创的关联查询法）：

SELECT 
    p.ID AS blocked_thread_id,
    p.USER AS blocked_user,
    p.TIME AS blocked_time,
    p.STATE AS blocked_state,
    LEFT(p.INFO, 200) AS blocked_query,
    b.ID AS blocking_thread_id,
    b.USER AS blocking_user,
    b.TIME AS blocking_time,
    b.STATE AS blocking_state,
    LEFT(b.INFO, 200) AS blocking_query
FROM information_schema.processlist p
JOIN performance_schema.threads t ON p.ID = t.PROCESSLIST_ID
JOIN performance_schema.events_waits_current w ON t.THREAD_ID = w.THREAD_ID
JOIN performance_schema.threads bt ON w.BLOCKING_THREAD_ID = bt.THREAD_ID
JOIN information_schema.processlist b ON b.ID = bt.PROCESSLIST_ID
WHERE p.STATE = 'Waiting for table metadata lock';

核心价值：这种多系统视图关联查询能精准定位锁等待的源头，是解决复杂锁问题的利器

3.2 第二板斧：深度分析SQL执行模式

识别高频查询模式（独创的指纹分析法）：

SELECT 
    -- 提取SQL指纹（去除具体值，保留结构）
    REGEXP_REPLACE(INFO, '[0-9]+', 'N') AS sql_pattern,
    COUNT(*) AS execution_count,
    AVG(TIME) AS avg_time,
    MAX(TIME) AS max_time,
    SUM(TIME) AS total_time
FROM information_schema.processlist
WHERE INFO IS NOT NULL
GROUP BY sql_pattern
ORDER BY total_time DESC
LIMIT 10;

创新点：通过正则表达式标准化SQL，识别真正需要优化的查询模式而非单个SQL

3.3 第三板斧：预测性监控

建立连接健康度评分模型（独创算法）：

SELECT 
    USER,
    COUNT(*) AS total_connections,
    SUM(CASE WHEN TIME > 10 THEN 1 ELSE 0 END) AS slow_queries,
    SUM(CASE WHEN STATE LIKE '%lock%' THEN 1 ELSE 0 END) AS locked_queries,
    ROUND(SUM(CASE WHEN TIME > 10 THEN 1 ELSE 0 END) / COUNT(*) * 100, 2) AS slow_query_percentage,
    -- 健康度评分公式（独创）
    ROUND(100 - (SUM(CASE WHEN TIME > 10 THEN 1 ELSE 0 END) / COUNT(*) * 100 
          - (SUM(CASE WHEN STATE LIKE '%lock%' THEN 1 ELSE 0 END) / COUNT(*) * 100, 2) AS health_score
FROM information_schema.processlist
WHERE USER NOT IN ('system user', 'event_scheduler')
GROUP BY USER
ORDER BY health_score ASC;

业务价值：量化的健康度评分可直观反映各用户连接质量，实现预测性监控

四、企业级实战：构建智能监控系统

4.1 自动化的长事务杀手

创建智能终止存储过程：

DELIMITER //
CREATE PROCEDURE auto_kill_long_transactions(IN max_duration INT)
BEGIN
    DECLARE done INT DEFAULT FALSE;
    DECLARE thread_id BIGINT;
    DECLARE db_user VARCHAR(100);
    DECLARE exec_time INT;
    DECLARE query_text TEXT;
    DECLARE kill_command TEXT;
    
    -- 只选择非系统用户的长事务
    DECLARE cur CURSOR FOR 
        SELECT p.ID, p.USER, p.TIME, p.INFO
        FROM information_schema.processlist p
        JOIN information_schema.innodb_trx t ON p.ID = t.trx_mysql_thread_id
        WHERE p.TIME > max_duration 
        AND p.USER NOT IN ('system user', 'repl', 'event_scheduler');
    
    DECLARE CONTINUE HANDLER FOR NOT FOUND SET done = TRUE;
    
    OPEN cur;
    read_loop: LOOP
        FETCH cur INTO thread_id, db_user, exec_time, query_text;
        IF done THEN
            LEAVE read_loop;
        END IF;
        
        -- 记录日志（独创的详细日志格式）
        INSERT INTO killed_transactions_log 
            (thread_id, db_user, execution_time, query_text, killed_at)
        VALUES 
            (thread_id, db_user, exec_time, query_text, NOW());
        
        -- 构建动态KILL命令
        SET kill_command = CONCAT('KILL ', thread_id, ';');
        
        -- 执行KILL（使用预处理语句防止注入）
        SET @kill_stmt = kill_command;
        PREPARE stmt FROM @kill_stmt;
        EXECUTE stmt;
        DEALLOCATE PREPARE stmt;
        
        -- 发送警报（可集成到企业微信/钉钉）
        CALL send_alert(CONCAT('已终止长事务: 用户=', db_user, 
                          ', 持续时间=', exec_time, '秒'));
    END LOOP;
    CLOSE cur;
END //
DELIMITER ;

企业级特性：完善的日志记录、安全防护和警报通知，适合生产环境使用

4.2 实时监控仪表盘查询

构建监控仪表盘的核心SQL：

SELECT 
    -- 基础指标
    COUNT(*) AS total_connections,
    SUM(CASE WHEN COMMAND = 'Sleep' THEN 1 ELSE 0 END) AS idle_connections,
    SUM(CASE WHEN COMMAND != 'Sleep' THEN 1 ELSE 0 END) AS active_connections,
    
    -- 性能指标
    SUM(CASE WHEN TIME > 5 THEN 1 ELSE 0 END) AS slow_queries,
    MAX(TIME) AS longest_running_query,
    ROUND(AVG(CASE WHEN COMMAND != 'Sleep' THEN TIME ELSE NULL END), 2) AS avg_active_time,
    
    -- 资源等待指标
    SUM(CASE WHEN STATE LIKE '%lock%' THEN 1 ELSE 0 END) AS locked_threads,
    SUM(CASE WHEN STATE LIKE '%wait%' THEN 1 ELSE 0 END) AS waiting_threads,
    
    -- 数据库分布
    COUNT(DISTINCT DB) AS active_databases,
    (SELECT DB FROM information_schema.processlist 
     WHERE DB IS NOT NULL GROUP BY DB ORDER BY COUNT(*) DESC LIMIT 1) AS most_active_db,
    
    -- 用户分布
    COUNT(DISTINCT USER) AS active_users,
    (SELECT USER FROM information_schema.processlist 
     GROUP BY USER ORDER BY COUNT(*) DESC LIMIT 1) AS most_active_user
    
FROM information_schema.processlist;

可视化价值：这些指标可直接用于Grafana等监控系统，构建完整的MySQL监控仪表盘

五、独家秘籍：processlist的隐藏玩法

5.1 连接溯源技术

追踪连接来源应用（独创的客户端特征分析）：

SELECT 
    USER,
    -- 提取客户端名称（从HOST和INFO中分析）
    CASE 
        WHEN HOST LIKE '10.100.%' THEN '内部应用服务器'
        WHEN INFO LIKE '%/* MyBatis */%' THEN 'Java/MyBatis应用'
        WHEN INFO LIKE '%django%' THEN 'Python/Django应用'
        WHEN HOST LIKE 'localhost%' THEN '本地管理连接'
        ELSE '未知客户端'
    END AS client_type,
    COUNT(*) AS connection_count,
    AVG(TIME) AS avg_time
FROM information_schema.processlist
GROUP BY USER, client_type
ORDER BY connection_count DESC;

业务洞察：通过这种分析可以识别不同应用的数据库使用模式，为容量规划提供依据

5.2 预测连接池泄漏

检测连接池泄漏模式：

SELECT 
    USER,
    HOST,
    COUNT(*) AS connection_count,
    SUM(CASE WHEN COMMAND = 'Sleep' AND TIME > 300 THEN 1 ELSE 0 END) AS leaked_connections,
    ROUND(SUM(CASE WHEN COMMAND = 'Sleep' AND TIME > 300 THEN 1 ELSE 0 END) / COUNT(*) * 100, 2) AS leak_percentage
FROM information_schema.processlist
WHERE COMMAND = 'Sleep'
GROUP BY USER, HOST
HAVING leaked_connections > 5 OR leak_percentage > 20
ORDER BY leaked_connections DESC;