自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

servletwjx的博客

记录个人工作中有用的东西

  • 博客(32)
  • 收藏
  • 关注

原创 canal安装和使用

canal安装和使用Canal介绍名称:canal 译意: 水道/管道/沟渠语言: 纯java开发定位: 基于数据库增量日志解析,提供增量数据订阅&消费,目前主要支持了mysql关键词: mysql binlog parser / real-time / queue&topic工作原理:  原理相对比较简单:1.canal模拟mysql slave的交互协议,伪装自己为mysql ...

2018-06-26 17:23:44 1895

原创 impala COMPUTE STATS 指令

impala COMPUTE STATS 指令最近再测试impala 学习到COMPUTE STATS 但是不明白其中的意思用一张表来举例drop table if exists sjqy.small_bak_inf_ofr_asset_exi_hist;--拆分小表 create table sjqy.small_bak_inf_ofr_asset_exi_hist asselect set_e...

2018-03-30 11:24:24 6759

原创 spark ,hive collect_list全局保持顺序

https://www.cnblogs.com/zhnagqi-dream/p/11912317.html

2020-07-06 13:34:31 2429

原创 FlinkSQL实现WordCount

import org.apache.flink.api.java.DataSet;import org.apache.flink.api.java.ExecutionEnvironment;import org.apache.flink.table.api.Table;import org.apache.flink.table.api.TableEnvironment;import or...

2019-09-26 10:04:37 855

原创 spark wordcount

import org.apache.spark.rdd.RDDimport org.apache.spark.{SparkConf, SparkContext}object SprakWordCount { def main(args: Array[String]): Unit = { //参数检查 if (args.length < 2) { Sys...

2019-07-26 10:46:52 181

原创 parquet 形式MapReduce hbase 数据写入hdfs

package com.sitech;import com.google.common.collect.Lists;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.h...

2019-05-28 10:40:40 488

原创 Flink 两表关联 流批处理消费kafka 数据写入hbase

Flink流批处理消费kafka 数据写入hbase通过flume将数据写入kafka topicKafka topic1 数据:name, age, sexy, proctime.proctimejava,18,男,20190516rose,28,女,20190516tom,38,男,20190516jack,18,男,20190516luoli,19,女,2019...

2019-05-16 11:39:33 3652

原创 Flink 两表关联 Could not instantiate outputs in order

Caused by: java.lang.ClassNotFoundException: org.apache.flink.table.runtime.CRowKeySelector具体报错May 16, 2019 10:12:01 AM com.sitesh.SqlJoinWithKafka mainSEVERE: nullorg.apache.flink.client.progra...

2019-05-16 11:26:15 1750

原创 Flink 同步kafka 数据写入hbase

package com.sitesh.test;import java.io.*;import java.util.Arrays;import java.util.List;import java.util.Properties;import java.util.logging.Level;import java.util.logging.Logger;import org.apa...

2019-05-07 16:53:24 1301

原创 MapReduce hdfs文件写入hbase表

@[TOMapReduce hdfs文件写入hbase表import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.Put...

2019-03-29 17:17:25 269

原创 mapreduce HDFS 写入hbase 表中

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.apache.hadoop.hbase.client.Put;import org.apache.hadoop....

2019-03-29 17:12:09 210

原创 MapReduce hdfs to hbase

package sitech;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.a...

2019-03-28 17:33:47 189

原创 MapReduce hbase to hdfs

hbase 表数据如下具体代码:import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import ...

2019-03-27 16:02:23 151

原创 MapReduce hdfs 写入 hbase 表

文件内容如下:入hbase 表依赖jar 包<?xml version="1.0" encoding="UTF-8"?><project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" ...

2019-03-27 15:59:26 246

原创 flink消费kafka数据直接到hdfs

import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.fli...

2019-03-25 11:03:41 1780

原创 flink消费kafka 数据

import org.apache.flink.api.common.functions.FlatMapFunction;import org.apache.flink.api.common.serialization.SimpleStringSchema;import org.apache.flink.api.java.tuple.Tuple2;import org.apache.fli...

2019-03-22 17:16:10 854

原创 flink 编写wordcount

依赖jar包<dependency><groupId>org.apache.flink</groupId><artifactId>flink-java</artifactId><version>1.7.2</version></dependency><dependency&...

2019-03-18 17:43:16 317

原创 kudu+impala 使用手册

1.技术路线oracle--kafka-kudu2.各个组件优缺点Hive:数据直接存放于hdfs中,适合离线分析,确不利于记录级别的随机读写。Hbase:将数据存放再hbase中,适合记录级别的随机读写。对离线分析确不友好。Kudu:是对 hdfs 和 hbase 功能上的补充,能提供快速的分析 和实时计算能力Kudu 特性:kudu 面向结构化存储 支撑单行事务...

2019-03-13 17:34:33 2747

原创 MapReduce 两个表关联

package sitesh;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapr...

2019-03-08 15:50:42 454

原创 MapReduce 单表关联

package sitesh;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.Text;import org.apache.hadoop.mapr...

2019-03-04 17:40:20 394

原创 MapReduce hbaseToHdfs

package sitech;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.hbase.HBaseConfiguration;import org.a...

2019-01-23 16:58:43 142

原创 MapReduce多表关联实测

两个表 a 表  name id   b 表 id  addressa      b  代码import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io....

2018-12-11 10:08:13 411

原创 MapReduce 求平均数

import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.FloatWritable;import org.apache.hadoop.io.LongWrita...

2018-11-29 11:21:31 631

原创 MapReduce例子

//MapReduce 排序例子import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;import org.apache.hadoop.io.IntWritable;import org.apache.ha...

2018-11-27 17:25:07 170

原创 kafka 基本命令

https://www.apache.org/dyn/closer.cgi?path=/kafka/1.1.0/kafka-1.1.0-src.tgz  下载地址 启动消费者kafka-console-consumer.sh --zookeeper 134.96.33.132:9501,134.96.33.133:9501,134.96.33.134:9501 --topic kafk...

2018-11-05 19:47:23 125

转载 springMvc原理

SpringMVC的工作原理图:SpringMVC流程1、  用户发送请求至前端控制器DispatcherServlet。2、  DispatcherServlet收到请求调用HandlerMapping处理器映射器。3、  处理器映射器找到具体的处理器(可以根据xml配置、注解进行查找),生成处理器对象及处理器拦截器(如果有则生成)一并返回给DispatcherServlet。4、  Dispa...

2018-06-19 14:28:44 134

原创 oracle

select * from test_county_sex;select county as county,        max(case when sex=1 then prou end  )as man       ,max(case when sex=2 then prou  end )as woman       from test_county_sex group by county ...

2018-06-19 14:24:12 123

原创 hive基本用法

hive 删除分区alter table  pdm.mkt_asset_star_71 drop partition (end_dt='3000-12-31');alter table  pdm.mkt_asset_star_71 drop partition (end_dt='2017-02-26');三分之一时间处理           from_unixtime(unix_timestamp...

2018-05-08 16:09:00 495

原创 hive 优化

一 .Sql 优化:1. 根据不同的业务场景进行sql优化2. 去除查询过程中不需要的 column3. Where 条件判断再 tablescan 阶段就进行过滤4. 利用partition信息 获取有效的数据信息5. Map端的jion 以大表做驱动 小表加入内存当中6. 调整jion的顺序 进来使 大表作为驱动表。7. 对数据分布不均匀的表进行group by 时, 为了避免 数据集中到 r...

2018-04-20 10:46:00 363

翻译 impala配合hive使用

1. 使用1.2. 进程启停1.2.1. 启动启动顺序:statestore-&gt;catalog-&gt;impaladroot用户:在statestore节点service impala-state-store start在catalog节点service impala-catalog start在impalad节点:service impala-server start1.2.2. 停止停...

2018-03-29 17:25:12 2980

原创 hive map reduce 参数设置

现象:1.目前每日load出来的问题sql,最终的结果文件里面很多都只有一条数据。2.资源影响巨大,对照脚本统计出来的sql运行时间,手动执行sql的时间是其十分之一到三分之一。3.不少sql执行时的map数量能达到1000-3000,但是reduce数量在1左右。由于每天load出的excle文档,sjzx租户的sql过长,手动无法执行,其它租户的sql抽取时又存在乱码问题,仅针对了sjzx_b...

2018-03-12 16:51:06 3030

原创 Hive压缩测试

Hive存储格式操作方式:可以在建表的时候指定表的存储格式:stored as orc tblproperties ("orc.compress"="SNNAPY"),不指定表属性则默认压缩采用ZLIB。比如:create table Addresses (  name string,  street string,  city string,  state string,  zip int) s...

2018-03-12 16:15:51 905

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除