自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 资源 (1)
  • 收藏
  • 关注

原创 book过节啦

1024 真好。

2023-10-24 19:29:38 63

原创 1024程序猿啊

又是一年1024,继续骗个节奏

2022-10-24 19:33:43 115

原创 没有主题的一天

这是一个混经验的帖子没啥事情大家都散了吧

2021-10-24 12:47:04 103

原创 sql 中队不同列进行排名对比

假设 tablea 中有 a b c d 四个相同属性但是类别不同的列,现在想要对四个列进行排名。select1+(case when a < b then 1 else 0 end ) + (case when a < c then 1 else 0 end) + (case when a < d then 1 else 0 end) as a_rd,1+(case when b < a then 1 else 0 end) + (case when b < c the

2021-08-07 22:10:40 254

原创 kafka

产品的整体介绍(1)一个分布式流媒体平台(2)在系统或应用程序之间构建可靠的用于传输实时数据的管道,消息队列功能(3)构建实时的流数据处理程序来变换或处理数据流,数据处理功能(4)Kafka性能超过ActiveMQ等传统MQ工具,集群扩展性好。弊端是:(1)在传输过程中可能会出现消息重复的情况,(2)不保证发送顺序(3)一些传统MQ的功能没有,比如消息的事务功能。所以通常用Kafka处理大数据日志。2.产品的特性及实现原理特性:1.高吞吐量、低延迟kafka每秒可以处理几十万条消.

2021-03-27 16:46:21 197

原创 sqoop 导数据从 mysql 到 hdfs,load 进 hive

sqoop 从 mysql 导数据到 hive 命令:sqoop import --connect 'jdbc:mysql://127.0.0.1:8066/int_vst_wx' --username 'user' --password 'password' --table fact_interfaces_visits_wx1 --hive-import --create-hive-table --target-dir /warehouse/tablespace/managed/hive/fact_i

2020-08-19 13:53:30 272

转载 airflow 安装

当前配置情况:Python 2.7.5Mysql 5.7.31pip 20.1.1airflow 1.10.111、默认自带python2环境,自行安装pipsudo yum -y install epel-releasesudo yum -y install python-pip12、进行pip的更新,否则很多安装会报错sudo pip install --upgrade pipsudo pip install --upgrade setuptools3、安装开发库sudo y

2020-08-10 19:46:23 161

原创 sqoop 从 phoenix、mysql 导数据到hdfs、hive 时碰到的一些问题

[root@node1 usr]# bin/sqoop import --connect 'jdbc:mysql://172.16.0.13:16045/active_user_stats?useUnicode=true&characterEncoding=utf-8&useSSL=FALSE&serverTimezone=GMT%2B8&convertToNull=CONVERT_TO_NULL&allowMultiQueries=true' --userna...

2020-06-17 17:35:01 672

转载 kettle 学习文档

kettle 教程(一):简介及入门传送门kettle 教程(二):常用输出(插入更新、表输出、执行 SQL 脚本)传送门kettle 教程(三):条件判断 Switch Case传送门kettle 教程(四):自定义 Java 代码传送门...

2020-04-02 16:29:49 337

原创 MySQL 取前三十天每天的日期 组内排序 拓展

mysql 取前三十天日期:SELECT @rownum:=@rownum+1 AS rownum,DATE_SUB(SYSDATE(),INTERVAL @rownum DAY) as da FROM (SELECT @rownum:=0) r,tableName limit 0,30;设置一个变量,获取行号,然后获取变量内的数据用于 DATE_SUB 函数来获取前 rownum 数量的...

2020-02-20 15:04:53 516 1

原创 flume 日志收集学习

博客链接:https://www.cnblogs.com/wangtao1993/p/6404232.html

2019-12-31 10:21:20 115

原创 flume 导数据从 kafka 到 mysql (二)

Flume 版本:1.8.0Mysql 版本:8.0Kafka 版本:1.0.1一、创建 maven,编辑 连接 mysql 的插件创建 maven 工程,自定义插件,供 flume 的sink 使用:Pom.xml<?xml version="1.0" encoding="UTF-8"?>4.0.0<groupId>com.jz.flume</gr...

2019-11-28 11:04:08 675

转载 flume 导数据 从 kafka 到 mysql(一)固定列值

现在做的是固定表到 mysql 的设置,需要自定义 udf 然后传入固定的列值。先创建一个 maven 工程,自定义 jar 的编写:pom.xml<?xml version="1.0" encoding="UTF-8"?>4.0.0<groupId>com.jz.flume</groupId><artifactId>flumeMysq...

2019-11-22 18:32:08 261

原创 kafka

kafka 测试消息https://blog.csdn.net/qq_41665356/article/details/80376075kafka 基本使用命令https://blog.csdn.net/qq_24347541/article/details/91492101

2019-10-28 09:57:48 118

原创 phoenix 创建索引和视图、百分比函数、分位函数、日期格式函数

创建索引:create index IDX_USER_ACTION_USER_SCHOOL on fact_user_action(user_id,school_id);异步创建索引:create index idx_inner_log_interface_date on inner_log(interface,datekey)include (UPSTREAM_RESPONSE_TIME...

2019-10-24 09:36:43 467

原创 canal正常启动,但是无法读取 bin log 日志,meta.data 文件的原因

canal 不知道因为什么原因挂掉了,重启的话,adapter 端日志也显示启动正常,找了半天是因为 canalserver 端的配置出现问题,conf 目录下的 meta.dat 文件读取的文件不存在,错误日志是这样的:2019-09-15 23:59:21.853 [destination = testcore , address = /172.18.108.67:3306 , EventP...

2019-09-16 15:25:58 5239 4

原创 apache pig 读取日志处理,取不固定列最后一段数据

pig 脚本--加载注册所需的 jar 包和方法REGISTER /usr/hdp/current/pig-client/piggybank.jar;set phoenix.schema.isNamespaceMappingEnabled true;REGISTER /usr/hdp/current/phoenix-client/phoenix-client.jar;-- so...

2019-09-06 13:55:53 165

原创 java 人脸识别博客

https://blog.csdn.net/qq_34137397/article/details/78093056

2019-09-02 16:03:30 160

原创 kettle 入门学习博客

http://yujunyi.com/2018/08/23/kettle 教程(一):简介及入门/

2019-08-28 10:29:34 137

原创 python 脚本输出命令行的小错误

python 脚本中,定义命令行输出 json 文件可能会导致命令行和定义的变量后跟的引号产生错行,从而导致命令不生效如下所示:string = "python /data/datax/bin/datax.py /data/datax_jobs/useraction/" + fileName+" -p '-DlastTime=\""+last_time+"\"'"print string...

2019-08-27 10:17:21 289

原创 scrapy1.5 学习博客

http://www.scrapyd.cn/doc/

2019-08-21 15:48:30 122

原创 elasticsearch 建立别名

1.创建索引curl -XPUT "172.0.0.1:9200/index_par_rel_v4" -H 'Content-Type: application/json' -d '{ "mappings": { "properties": { "Id" : {"type" :"long"}, "parentId" :{ "type...

2019-08-21 11:37:58 2490 1

原创 canal 日志中 ERROR c.a.otter.canal.client.adapter.es.support.ESTemplate ...document missing 产生的可能的原因

canal 日志中经常会有日志信息2019-08-14 15:02:24.843 [pool-2-thread-1] ERROR c.a.otter.canal.client.adapter.es.support.ESTemplate - [index_user_v4/j9SX_DfjTB6mcqmLCEH84g][[index_user_v4][0]] DocumentMissingExce...

2019-08-14 15:25:15 1785 3

原创 canal 项目具体

Canal版本:1.1.3位置:测试环境 /data/realTask/canal目前传数据主要是放在测试环境,主要是 testcore 库中的 t_user,t_user_class_rel,t_school_data,t_dd_area,t_user_school_rel,t_school_dept,t_user_parenthood_rel 表中的数据。配置文件:Applicati...

2019-08-13 16:25:37 312

原创 canal 取 mysql到 elasticsearch

1.安装 canal 和 elasticsearch教程很多,可自行搜索(我这里用的 canal 是 1.1.3 版本,es 则是 7.2的,mysql 用的是 5.7)2.在 es 中创建 index,mapping,我这里有一个父子维关系,整个有点长curl -XPUT "172.17.1.9:9200/index_user_v4" -H 'Content-Type: applicat...

2019-08-02 17:27:56 297

原创 canal 增量抽取 mysql 数据到 elasticsearch 遇到的坑

第一个是在 bin 目录下启动 sh 脚本,但是没有反应,排查了半天是因为当前账号没有权限,重新搞了一个账号切换就ok了,第二个比较坑一点,我这里用的是 canal 1.1.3 的版本,es 用的是 7.2 ,这样搞出来导致数据写入不成功,在源码测试了半天也没有结果,显示 canal 已经把数据传递出去了,而且 _mapping 设计的没有问题,看了半天发现 es 报错ERROR c.a.o....

2019-07-19 13:56:36 5184

原创 crontab 定时任务报错 java: command not found

在原来服务器上写的定时任务,在任务转移之后定时任务不能成功执行,脚本没问题,用 sh 命令可以执行,但是目标地点没有数据,日志显示报错 :From root@bd-bi-node06.localdomain Wed Jun 26 16:11:01 2019Return-Path: <root@bd-bi-node06.localdomain>X-Original-To: roo...

2019-06-26 17:00:04 2040

原创 shell脚本执行 phoenix 命令,操作数据库表

先写好 sql 脚本,将自己要执行的操作依次写下。table.sqluse log_ana;drop table sample;create table sample(id integer primary key,t1 varchar,t2 varchar);编写 shell 脚本,将自己的 sql 脚本写入执行命令(我用的是 hbase 的 phoenix)table.sh!#...

2019-06-19 16:30:49 1393

原创 python脚本执行 json 文件

最近老大要求写个定时执行的调度程序,来保证写好的 json 文件能在有变量的情况下,可以把每小时的任务按照增量抽取的方法保存到 hdfs,而且需要把 json 运行的日志按照天为单位保存在本地目录下,赶忙找来小老弟把这个程序写了一下。 #!/usr/bin/python # -*- coding: UTF-8 -*- import threading import time impor...

2019-06-13 10:00:49 2024

原创 datax 导数据,从 mysql 到 phoenix

fact_user_role.json{"job": { "entry": { "jvm": "-Xms2048m -Xmx2048m" }, "content": [ { "reader": { "name": "mysqlreader", "par...

2019-06-10 15:47:44 1808

转载 kafka+spark+phoenix 数据传递

1.在IDEA新建一个maven项目:pom.xml<properties> <scala.version>2.11.8</scala.version> <spark.version>2.3</spark.version> <spark.artifact>2.11</spark.artifac...

2019-06-10 14:56:03 716 1

client-adapter.elasticsearch-1.1.3-jar-with-dependencies.delete.jar

主要是关于父子维和删除数据方面的修改

2019-08-02

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除