![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
ETL
鱼干片
这个作者很懒,什么都没留下…
展开
-
什么是数据倾斜,怎么解决数据倾斜?
相信很多接触MapReduce的朋友对‘数据倾斜’这四个字并不陌生,那么究竟什么是数据倾斜?又改怎样解决这种该死的情况呢?何为数据倾斜?在弄清什么是数据倾斜之前,我想让大家看看数据分布的概念:正常的数据分布理论上都是倾斜的,就是我们所说的2-8原理:80%的财富集中在20%的人手中,80%的用户只使用20%的功能,20%的用户贡献了80%的访问量,不同的数据字段的数据倾斜一般有两种情况:一种是唯一值非常少,极少数值有非常多大记录值;一种是唯一值比较多,这个字段的某些值有远远多于.原创 2020-08-25 18:08:43 · 1752 阅读 · 0 评论 -
手工导入EXCEL文件到ORACLE数据库
1. 数据源city.xlsx2. 另存为city.csv3. 创建表结构 CREATE TABLE ODS.ODS_DIM_CITY ( CITY_CODE VARCHAR2(200 BYTE) NOT NULL ENABLE, CITY_NAME VARCHAR2(200 BYTE), CITY_LEVEL_CODE VARCHAR2(200 BYTE), CITY_LEVEL VARCHAR2(100 BYTE), CITY_CLASSIFY_CODE VA原创 2020-08-13 09:54:44 · 313 阅读 · 0 评论 -
创建时间维度表之Oracle篇
1, 创建表结构create table TIME_DIMENSION( the_date NUMBER not null, date_name NVARCHAR2(15), the_year NUMBER, year_name NVARCHAR2(10), the_quarter VARCHAR2(10), quarter_name NVARCHAR2(10), the_month NUMBER, month_name NVA原创 2020-06-30 16:04:10 · 385 阅读 · 0 评论 -
Hive中创建映射Hbase表
######To create hive table mapping hbase table###create external table hbase_test_mysql_general(rowkey string,id bigint,current_d string,current_t string,current_dt string,current_z string,id1...原创 2020-03-02 11:22:11 · 167 阅读 · 0 评论 -
Maxwell 配置kerberos信息
在config.property文件中加入下面配置:#####config.property###############kafka.security.protocol=SASL_PLAINTEXTkafka.sasl.kerberos.service.name=kafkakafka.sasl.mechanism=GSSAPIsecrity.inter.broker.protocol...原创 2020-03-02 11:16:36 · 212 阅读 · 0 评论 -
Hive中实现数据增量累加主键覆盖的sql
insert overwrite table full_data_table selectddd.data_colfrom( select aa.data_col from full_data_table aaleft join( select b.pk_col as pk_id from full_data_table a left join inc_data_tabl...原创 2019-12-12 09:16:09 · 912 阅读 · 0 评论 -
Installing the Teradata Connector with CDH5
1. Install the Sqoop connector by opening the distribution archive in a convenient location such as /usr/lib. Opening the distribution creates a directory that contains the jar file of the compiled...原创 2019-12-10 11:33:05 · 124 阅读 · 0 评论 -
Maxwell 同步blob字段到kafka
Maxwell在同步mysql blob到kafka时候,会用Base64进行加密。也就是说在kafka拿到数据时,blob字段的内容和源库中的数据是不一样的。Maxwell会对blob字段进行Base64加密。所以我们需要在入到存储上的时候进行base64的decode。具体方法如下:importjava.util.Base64public void base64() throw...原创 2019-12-10 14:44:42 · 322 阅读 · 0 评论 -
如何使用sqoop导入avro file到hive中
1,使用sqoop命令,--as-avrodatafile参数从mysql,表t_movie导入hdfs,编辑命令[root@cdh-demo ~]# cat import_avro.txtimport--connectjdbc:mysql://cdh-demo:3306/mytest--usernamekobezhu--passwordkobezhu--tablet_mo...原创 2019-11-09 10:26:42 · 651 阅读 · 0 评论 -
Talend HDFS组件HA连接配置
原创 2019-09-20 09:43:19 · 200 阅读 · 0 评论