群演老何@天津-CSDN博客

原创 NiFi 集成 Debezium 接收 MySQL CDC

NiFi 集成 Debezium 接收 MySQL CDC

2023-03-13 10:54:48 376

原创 odoo12 学习: "无效视图 xxxx xxxx xxxx 定义 False

学习使用 odoo12 开发，遇到以下问题： Odoo Server Error Traceback (most recent call last): File "C:\odoo12dev\source\odoo\tools\convert.py", line 757, in parse self._tags[rec.tag](rec, de, mode=mode) Fi...

2019-01-08 21:36:19 2758 1

原创 odoo12 学习: The ID "xxxx.yyyy_zzzz" refers to an uninstalled module

学习使用 odoo12 开发，遇到以下问题： Odoo Server Error Traceback (most recent call last): File "C:\odoo12dev\source\odoo\tools\convert.py", line 757, in parse self._tags[rec.tag](rec, de, mode=mode) File ...

2019-01-08 21:24:15 3408

原创 Flume 长时间运行，Hive Sink 停止工作问题处理

1. 问题现象在使用 Flume 将数据从 Kafka 加载到 hive 的过程中，我们遇到一个问题：每天晚上 Flume 的 Hive Sink 总会报错，然后停止工作： 15 juil. 2016 21:40:43,008 INFO [hive-hive1-call-runner-0] (org.apache.flume.sink.hive.HiveWriter$2.call:238) ...

2018-05-21 09:39:33 1405

原创新增多个 Flume 实例后，Kafka 数据重复消费问题处理

我们使用 Flume 将数据从 Kafka 加载到 Hive 中。由于启动一个 Flume 实例时，数据加载的速度只能达到 10MB/秒 (每条Kafka记录100B)。于是我们计划启动多个 Flume 实例 (指定同一个消费者组名称)。我们知道 Kafka 数据消费是以 Partition 为单位的，即一个 Partition 只能被一个 Flume 实例消费。当启动第二个 Flume ...

2018-05-18 16:37:58 5142 3

原创 Ambari Metrics Collector 宕机问题处理

今天收到现场 Ambari Metrics 宕机问题。由于 Ambari Metrics 存储的是集群运行情况信息，在当前集群运行良好情况下，不是特别重要；所以我们采取删除重建的方式修复。以下为主要步骤: 1. 删除 Ambari Metrics 元数据 Ambari Metrics 使用 hbase 存储数据。hbase 元数据存储在 zookeeper 上。查看 ams-hbase...

2018-05-18 14:48:08 3680 2

转载 Kafka消费组(consumer group)

Kafka消费组(consumer group) 一直以来都想写一点关于kafka consumer的东西，特别是关于新版consumer的中文资料很少。最近Kafka社区邮件组已经在讨论是否应该正式使用新版本consumer替换老版本，笔者也觉得时机成熟了，于是写下这篇文章讨论并总结一下新版本consumer的些许设计理念，希望能把consumer这点事说清楚，从而对广大使用者有所帮助。...

2018-05-18 13:29:52 2924

转载 JMX 原理与入门

一、JMX的定义　　　　JMX(Java Management Extensions)是一个为应用程序植入管理功能的框架。JMX是一套标准的代理和服务，实际上，用户可以在任何Java应用程序中使用这些代理和服务实现管理。这是官方文档上的定义，我看过很多次也无法很好的理解。我个人的理解是JMX让程序有被管理的功能，例如你开发一个WEB网站，它是在24小时不间断运行，那么你肯定会对网站进行监控，如...

2018-05-08 12:53:56 3294 1

转载 Flume 原理介绍

1 .背景 flume是由cloudera软件公司产出的可分布式日志收集系统，后与2009年被捐赠了apache软件基金会，为hadoop相关组件之一。尤其近几年随着flume的不断被完善以及升级版本的逐一推出，特别是flume-ng;同时flume内部的各种组件不断丰富，用户在开发的过程中使用的便利性得到很大的改善，现已成为apache top项目之一. 2 .概述 1. ...

2018-05-03 23:29:58 649

转载 Spark 内存管理

Spark 作为一个以擅长内存计算为优势的计算引擎，内存管理方案是其非常重要的模块； Spark的内存可以大体归为两类：execution和storage，前者包括shuffles、joins、sorts和aggregations所需内存，后者包括cache和节点间数据传输所需内存；在Spark 1.5和之前版本里，两者是静态配置的，不支持借用，spark1.6 对内存管理模块进行了优化...

2018-05-02 15:25:01 172

转载 Spark 基本架构及原理

Apache Spark是一个围绕速度、易用性和复杂分析构建的大数据处理框架，最初在2009年由加州大学伯克利分校的AMPLab开发，并于2010年成为Apache的开源项目之一，与Hadoop和Storm等其他大数据和MapReduce技术相比，Spark有如下优势： Spark提供了一个全面、统一的框架用于管理各种有着不同性质（文本数据、图表数据等）的数据集和数据源（批量数据或实...

2018-05-02 15:17:54 292

原创 Spark 下载、安装与命令行交互操作起步

一直以为 spark 与 hadoop 关系密切，最近读了文档才发现 spark 应该看着一个独立的分布式计算框架，于是开始独立尝试(没有 hadoop 环境)。 1. Windows 环境 spark 安装问题从官网(http://spark.apache.org/downloads.html)下载 pre-built for hadoop 2.7 版本 spark...

2018-05-01 00:14:12 1521

原创 HDFS 删除大量文件后不可访问问题处理

一、问题现象由于前一段时间ORC delta文件合并失败，HDFS中存在了大量delta文件，最终导致访问该数据表失败。通过想办法把数据搬移到新表后，我们drop掉了这个旧表。没想到一会儿使用人员报告整个HDFS不可访问。简单重启HDFS后，系统恢复正常了。但一个小时后，整个HDFS又不正常了。二、问题查找 ...

2018-04-30 21:33:59 6140 1

群演老何，代码为生