Norris Huang-CSDN博客

原创通过 AWS Glue 同步 MaxCompute 数据到 S3

从上一步骤创建好 Connector 页面中，直接点击右上角的 Create connection，打开创建 Connection 的页面。，创建一个新的对象，在 Key/Value 中分别填写 accessId，accessKey 对应在阿里云实际的用户ID和key。(版本会影响方案的成功，4.x 以上版本验证是不可行的)在 Glue 创建 Connection 页面选中上一步骤创建好的 Secret 对象。点击 Create ，这样就创建好 MaxComputer 的连接。Name 自定义填写。

2024-05-15 16:24:44 428

原创如何通过 AWS Managed Apache Flink 实现 Iceberg 的实时同步

AWS Managed Apache Flink （以下以 MAF 代指）是 AWS 提供的一款 Serverless 的 Flink 服务。

2024-05-13 23:38:38 740

原创 AWS-EMR & Airflow 调度hivesql 异常thrift.transport.TTransport.TTransportException: TSocket read 0 bytes

增加 hive.server2.authentication 设置为NOSASL。通过Airflow 调用 EMR 中的hive 执行sql，遇到错误异常。修改hive-site.xml。

2022-10-13 22:12:55 1145 1

原创 Flink 水位线

面试的时候被问到flink反压的问题，被面试官一直引导，其实是想看看对水位线的了解。在项目中确实没有用到水位线。所以整理一下水位线的理解吧。在数据实时分析的时候，关注的是数据的顺序性，特别是用Flink接收数据的时候考虑到流量在突然到来的峰值，flink反压导致了数据到达处理task的时候时间怎么对齐的问题。这里就需要用到flink 水位线了。通俗来理解 Flink有两个时间：EventTime 和 ProcessTime（1）EventTime 是从原始消息中...

2022-05-03 11:25:00 1266

原创 Linux 安装 vsftpd

1、先安装GCC[root@sdw11 ~]# rpm -ivh ppl-0.10.2-11.el6.x86_64.rpmwarning: ppl-0.10.2-11.el6.x86_64.rpm: Header V3 DSA/SHA1 Signature, key ID 1d1e034b: NOKEYPreparing... #############

2022-05-03 09:51:58 657

原创 Clickhouse 学习记录

从MYSQL将数据导入ClickhouseCREATE TABLE stations ENGINE = MergeTree ORDER BY id AS SELECT * FROM mysql('172.16.16.13:3306', 'kaggle_citylines', 'stations', 'norris', 'xxx');前提条件：MySQL的主键必须为not null172.16.16.13:3306 为MySQL的IP地址和端口号kaggle_citylines为MySQL的库，作

2022-03-13 12:36:55 679

转载 HBase 参数设置

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、GC二、RS 参数三、BlockCache四、flush 参数五、Split 参数前言转载 https://lihuimintu.github.io/2019/08/15/HBase-tuning/一、GCHBase CMS GC 配置参考二、RS 参数hbase.server.thread.wakefrequency该值默认是 10 秒，它影响着 Flush 和 CompactionFlushHand

2020-10-21 10:14:29 695

原创论dfs.namenode.handler.count配置参数的总要性

接早前一篇文章一次Hadoop 奇异故障之旅的问题说。这篇文章的故障，虽然用分批启动DN节点的方法，避免了重启HDFS的出现的内存问题。但是治标不治本，风险依然是存在的。所以要从根本上根治这个疑难杂症，就要从其他参数配置着手。最终，锁定一个参数配置dfs.namenode.handler.count。先来看看它的解释 *NameNode有一个工作线程池用来处理客户端的远程过程调用及...

2018-03-28 10:38:11 9598

原创 MYSQL双机热备配置(主-主)

MYSQL双机热备配置(主-主)安装MYSQL省略修改root密码：UPDATE user SET password=PASSWORD('utl413') WHERE user='root';FLUSH PRIVILEGES;分别使用root用户登录mysql创建需要同步的数据库（略）创建需要同步的用户：CREATE USER 'cbc1'@'%' IDENTI

2017-10-10 09:47:47 793

原创一次Hadoop 奇异故障之旅

中午接到一个同事的消息，说一个有200多个dn节点的集群（CDH）hive没办法创建分区了。重启了多次，都没有效果。后来发现namenode也一直出现故障。收到消息，就联机上去看了一下，果然hive的命令全部都挂起来了，hadoop fs 命令也一样被挂起。在CDH 的管理界面上检查了一下NN节点的状态，发现NN有问题。因为是生产环境，已经有半天没有数据上报了。运维的同事都比较着急。没办法，先来常规

2017-09-06 15:33:05 870

原创 Maven 配置 Storm 第三方依赖包分离

做storm的开发，一直有一个问题困扰，就是第三方依赖的包都要合并打成一个包，才能放到服务器上去运行，随着需求功能的增加，打的包也就越来越大。而我们的生产环境在云上，每次发布包，几百兆的文件都要传好久。所以，决定把这个问题彻底解决了，Storm的安装目录下有一个extlib的目录，分析bin/storm文件，发现，topo在启动运行的时候，会到这个目录下寻找是否有要加入到classpath中的文件。

2017-06-20 11:02:12 4598 3

原创 CDH 5 升级操作

现在大数据一直在使用CDH来作为基础平台。常会面临升级版本，操作中也经常出现各种各样的问题。这里就整理一个操作步骤指引。1.先升级CM，大部分情况下都应该是离线升级的场景。所以要先从官方网站上下载需要升级版本的rpm包，放到自己搭建的yum源中。官方地址：http://archive-primary.cloudera.com/cm5/redhat/6/x86_64/cm/ 切记，自建

2017-06-12 13:45:11 1778

原创 ORACLE 实现加载配置到内存中，模仿java的hashmap功能

在写oracle的存储过程时，都会遇到一些业务逻辑，需要写Function，来实现一些业务，然后返回一个结果，而在使用这个Function的时候又是通过一句SQL来直接调用，但是如果在Function中有查询数据表读取配置或者其他业务逻辑的时候，实际上的实现原理会是一条记录查询一次配置表。如果再遇上数据量很大的时候，这样的语句执行就变得非常非常的慢了。这时会想，是否也能有像java程序中hashm

2017-04-27 10:43:15 2327

原创异常断电导致HDFS文件块丢失，影响HBASE数据的问题处理

这几天一直看到HDFS提示文件块丢失的异常信息，也一直没有去关注，认为其他都正常。但是翻查HBASE入库日志的时候，发现了HBASE在提示入库的异常信息。联想到HDFS的块丢失问题，所以决定仔细检查一下，一查不得了，果然文件块丢失的问题影响还很大。很多数据都无法入库了。通过命令检查HDFS的丢失文件块hdfs fsck / -list-corruptfileblocks发现

2017-04-06 09:57:00 4024 2

原创 Cloudera Hadoop 添加主机后，报主机状态异常问题

最近部署了一个CDH环境，突然发生了添加主机之后，提示主机状态异常，然后就无法分发CDH parcel。这个问题困扰了将近半天的时间，一直翻查各种日志，最后在agent的日志中发现了问题。主要原因是第一遍部署CDH环境成功以后，由于mysql重启异常，强制杀死后，导致了CM无法正常连接mysql。然后进行第二遍部署。在第二遍部署的时候，由于第一遍部署完成以

2017-04-05 08:58:17 2724

转载数据库实例自动crash并报ORA-27157、ORA-27300等错误

原文地址rhel7.2上安装12C RAC数据库后，其中一个数据库实例经常会自动crash。查看alert日志发现以下错误信息：1234567891011121314Errors in file /d12/app/oracle/diag

2016-11-28 08:49:32 6471

转载 ICMP Flood攻击

1 原理ICMP Flood 的攻击原理和ACK Flood原理类似，属于流量型的攻击方式，也是利用大的流量给服务器带来较大的负载，影响服务器的正常服务。由于目前很多防火墙直接过滤ICMP报文，因此ICMP Flood出现的频度较低。比较下面两幅图，就应该可以看出是否有ICMP Flood攻击。正常ICMP包：图大包攻击的时候：

2016-07-01 10:49:40 5412

转载 ACK Flood攻击

1 原理ACK Flood攻击是在TCP连接建立之后，所有的数据传输TCP报文都是带有ACK标志位的，主机在接收到一个带有ACK标志位的数据包的时候，需要检查该数据包所表示的连接四元组是否存在，如果存在则检查该数据包所表示的状态是否合法，然后再向应用层传递该数据包。如果在检查中发现该数据包不合法，例如该数据包所指向的目的端口在本机并未开放，则主机操作系统协议栈会回应RST包告诉对方此端口不

2016-07-01 09:06:29 12890

转载 Storm安装

1. Storm集群组件Storm集群中包含两类节点：主控节点（Master Node）和工作节点（Work Node）。其分别对应的角色如下：主控节点（Master Node）上运行一个被称为Nimbus的后台程序，它负责在Storm集群内分发代码，分配任务给工作机器，并且负责监控集群运行状态。Nimbus的作用类似于Hadoop中JobTracker的角色。每个工作节点（Wor

2015-09-06 10:06:26 406

转载 Hadoop 故障：java.lang.OutOfMemoryError: Java heap space

一个作业运行时，在maptask阶段出现了如下错误：FATAL org.apache.hadoop.mapred.Child: Error running child : java.lang.OutOfMemoryError: Java heap space at org.apache.hadoop.io.Text.setCapacity(Text.java:240)

2015-02-03 10:39:23 704

转载 Using the LZO Parcel

This section describes how to install and use the LZO parcel.The RepositoryAdd the appropriate repository to Cloudera Manager’s list of parcel repositories. The HADOOP_LZO parcel will then bec

2015-01-27 11:29:59 556

转载 Recovery (bring GPDB up) from "FATAL:Global sequence number 1131954 less than maximum value 1131958

"Recovery (bring GPDB up) from "FATAL:Global sequence number 1131954 less than maximum value 1131958 found in scan ('gp_persistent_relation_node')""GPDB is down due to crash recovery failure with

2015-01-04 00:20:15 1208

转载 HBASE之RowKey排序解析

HBASE之RowKey排序解析学了hbase一段时间了，近端时间在进行表设计的时候一直没搞清楚rowkey的排序规则是怎么样的。找了一些资料之后，原来rowkey的排序方式是以ASCII进行比较的。以下是ASCII对照表格及描述，希望对学Hbase的朋友有帮助：其他特殊字符的ASCII列表转载地址:http://san-yun.ite

2014-11-25 09:00:57 10899

转载基于HBASE的并行计算架构之rowkey设计篇

转载dizhiHBASE作为大数据容器目前在业界得到认可，并行计算是应对大数据的核心思路，而分布式设计是并行计算架构的基本方法，本文将基于HBASE讲解一种并行计算架构的设计方法。1. 大数据在HBASE存储、计算以及查询的应用场景海量数据都是事务数据，事务数据都是在时间的基础上产生的。数据的业务时间可能会顺序产生，也可能不会顺序产生，比如某些事务发生在早上10

2014-11-25 08:43:40 802

转载 Hadoop：mapreduce程序reduce输出控制

1，在Hadoop中，reduce支持多个输出,输出的文件名也是可控的，就是继承MultipleTextOutputFormat类，重写generateFileNameForKey方法[java]public class LzoHandleLogMr extends Configured implements Tool { static class

2014-11-20 16:18:46 624

转载 Hadoop配置项整理(hdfs-site.xml)

续上篇整理一下hdfs相关的配置项 name valueDescription dfs.default.chunk.view.size32768namenode的http访问页面中针对每个文件的内容显示大小，通常无需设置。dfs.datanode.du.reserved1073741824每块磁盘所保留的空间大小，需要设置

2014-08-05 15:49:16 592

转载 LINUX 下安装 jdk 问题（please use alien to install rpm packages on Debian ）

在ubuntu里安装jdk时，出现提示信息：rpm: please use alien to install rpm packages on Debian, if you are really sure use --force-debian switch. see README.Debian for more details. deb 是debian linux 的安装

2014-07-31 14:59:57 1431

转载 Hadoop HBase 配置安装 Snappy 终极教程

原创地址http://shitouer.cn/2013/01/hadoop-hbase-snappy-setup-final-tutorial/

2014-07-30 16:25:53 546

转载 linux之sed用法

sed是一个很好的文件处理工具，本身是一个管道命令，主要是以行为单位进行处理，可以将数据行进行替换、删除、新增、选取等特定工作，下面先了解一下sed的用法sed命令行格式为： sed [-nefri] ‘command’ 输入文本常用选项： -n∶使用安静(silent)模式。在一般 sed 的用法中，所有来自 STDIN的资料一般都会

2014-07-30 14:07:06 348

转载如何重建EM

新安装11gR2，准备使用一下EM，但是默认建立的有一些问题，准备重建，重建过程中出了很多问题，搞了半天才正好，不过大致过程和10g是一样的.1.emca -repos recreate2.emca -config dbcontrol db3.emctl start dbconsole常用的命令语法：emca -repos create创建一个EM资料库emca -

2014-03-24 09:43:33 890

原创 Hadoop 配置安装问题集（待续）

1、安装HBASE后，需要将hadoop配置目录下的core-site.xml 和 hdfs-site.xml复制到hbase 的conf目录下。避免在运行job时出现 java.lang.IllegalArgumentException: Wrong FS: hdfs:/ expected file:/// 错误

2014-03-21 09:47:08 487

转载 sshd restart 遇到错误 cat: /proc/sys/crypto/fips_enabled: No such file or directory

[root@li414-184 ~]# /etc/init.d/sshd restartStopping sshd: [ OK ]cat: /proc/sys/crypto/fips_enabled: No such file or directory/etc/init.d/sshd: line 50: [

2014-03-19 11:09:37 5127

原创安装 GCC (RedHat EL 6)

[root@sdw14 GCC]# lscloog-ppl-0.15.7-1.2.el6.x86_64.rpm glibc-devel-2.12-1.47.el6.x86_64.rpm libcap-ng-0.6.4-3.el6_0.1.x86_64.rpm ppl-0.10.2-11.el6.x86_64.rpmcpp-4.4.6-3.el6.x86_64.rpm

2013-12-02 18:00:38 1647

原创解决ntp的错误 no server suitable for synchronization found

当用ntpdate -d 来查询时会发现导致 no server suitable for synchronization found 的错误的信息有以下2个：错误1.Server dropped: Strata too high在ntp客户端运行ntpdate serverIP，出现no server suitable for synchronization found的错误

2013-11-06 09:29:33 1731

原创 Greenplum receive close on connection: Success (cdbfilerepconnserver.c:334) 错误分析

GP数据库集群，偶尔隔两天就会发生节点的切换，镜像实例变为主实例，主实例中断。检查主实例的日志发现出现一个错误后，镜像就启动了。错误：receive close on connection: Success (cdbfilerepconnserver.c:334)对这个错误分析了很长时间，为什么会偶尔有一次这样的问题出现。现在集群入库量很大，每个节点上的实例数也不少，就开始

2013-07-11 08:55:12 1580

原创 Greenplum 创建表空间

1、每台节点创建文件目录主实例镜像实例都需要创建目录例如两个主两个镜像mkdir -p /data/seg1/pg_pri_cdrmkdir -p /data/seg2/pg_pri_cdrmkdir -p /data/seg1/pg_mir_cdrmkdir -p /data/seg2/pg_mir_cdr以上内容每台节点都需要执行主实例建

2013-07-10 23:12:12 2428

转载 greenplum学习笔记_工作量与资源管理

1- 设定工作量管理服务配置参数1) 使资源计划默认可用；2) 可以设置如下资源限制参数：max_resource_queues：设置最资源队列数目max_resource_portals_per_transaction：设置在一个事物中最大打开游标的数量；resource_select_only：如果设置成ON状态，则只有select /select in

2013-06-03 10:09:39 1292

原创 Greenplum 数据库初始化总是出现几个节点实例无法启动的问题

最近搭建GP20台节点环境时，发生初始化总是出现几个节点实例无法启动的问题。折腾两天，才找到问题。初始化时，设置了最大连接数为100，每台机器运行12个实例，主备就是24个实例，初始化后有一部分实例正常启动，一部分失败。根据日志找到失败节点目录下的日志，发现失败原因是由于硬件资源问题导致，提示是初始化最大连接数过大。机器的配置都是很高的，会出现这样的问题，很奇怪。

2013-04-01 15:19:04 4526

转载 Linux下修改swap的大小

说到swap~它是什么的呢？其实swap是内存的交换区；换句话说，如果内存不够用了，那么系统会在硬盘上存储一些内存中不常用的数据，之后将这部分数据在存储中析构掉；这样内存就又有剩余空间可以运行东东啦，这个过程也就是所谓的交换，存储数据的硬盘部分就是swap分区啦~ 装系统的时候可能会将swap大小设置的不合适但是swap的大小不正确，很影响服务器的性能上次有位同事就发生了这样

2013-02-21 09:14:08 728

转载 mongodb常用管理命令

1.要尝试使用MongoDB首先必须要在命令行运行mongod服务a. cd MONGO_HOME/binb. ./mongod --dbpath /data/mongodb/db/ --logpath /data/mongodb/logs/mongolog --logappend --fork参数说明--dbpath #指定db文件存放的目录--

2013-02-19 10:20:56 324

mysql高可用集群方案中文

在现今商业世界里，信息及其访问的畅通性，构成的不仅仅是基础架构，通常也是一些公司的预算模型。因此，对于或大或小的商业应用，维持信息的可用性和可访问性变得越来越重要。一直以来，高可用性对于关键性的商业系统来说都是非常重要的。比如，应用系统，数据库，存储网络等。但是，关键性低一些的系统在低成本，及市面已有的高可用性方案上有更自己的优势。对这些信息系统的需求不仅体现在确保重要数据的高可用性，也要确保能够有效的分享这些资源和现有计算机架构。一个高可用方案可以利用企业现有技术架构提供最大数据量及应用可用性。这些技术架构包含不同的操作系统，应用，硬件组成，并且可以覆盖多个地理位置。更常见的情况是，许多关键型应用和信息系统的后面，都会有一个数据库。在“数据库高可用指南”白皮书系列中，我们会介绍高可用架构和概念。文中同样也会介绍在选择高可用数据库方案时，需要考虑哪些因素，包含MySQL复制和MySQL集群。我们还会介绍MySQL专业服务和MySQL认证的企业级合作伙伴和产品。

2012-11-07

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

mysql高可用集群方案中文

google map api 开发快速入门

VS2008 新概念教程

ADO.NET 完全攻略

用户体验之 WPF & Silverlight

C#完全手册。。。。。。。。。。。。。。。。

空空如也