- 博客(28)
- 资源 (1)
- 收藏
- 关注
原创 Window系统运行常用命令
命令 含义 说明 cmd 打开命令编辑器 mstsc 打开远程桌面 calc 打开计算器 taskmgr 打开任务处理器 regedit 打开注册表编辑器 notepad 打开记事本 mspaint 打开画图 winword 打开word excel 打开excel write 打开写字板 io...
2020-05-28 11:32:18 211
原创 接受入参工具类ParameterTool
一、Flink中的ParameterTool工具类//// Source code recreated from a .class file by IntelliJ IDEA// (powered by Fernflower decompiler)//package org.apache.flink.api.java.utils;import java.io.File;import java.io.FileInputStream;import java.io.FileNotFound
2020-05-19 09:34:53 3336
原创 Elasticsearch Restful 操作数据
_index 索引(文档存储的地方)_type 文档存储的类型_id 文档的唯一标识curl是利用URL语法在命令行方式下工作的开源文件传输工具,使用curl可以简单实现常见的get/post请求。简单的认为是可以在命令行下面访问url的一个工具。在centos的默认库里面是有curl工具的,如果没有请yum安装即可。curl -X 指定http的请求方法 有HEAD G...
2020-05-08 17:11:34 215
原创 Python基础与高级
类型 Numbers(数字):int|logn|float|complex 布尔:true、false String(字符串) List(列表) Tuple(元组) 元组的元素不能修改 Dictionary(字典) Set()集合,可以快速的完成对list中的元素去重复的功能数据类型转换 int()|long()|float()|...
2020-04-29 10:59:54 222
原创 海量日志数据处理
1、海量日志TOPN对不能完全加载到内存中处理的海量数据,考虑“分而治之”+Hash的算法思想1.按照标识字段的Hash(IP)%1024(根据具体情况设置)值,把海量日志分别存储到1024个小文件中(每个标识所有数据只会存储到1个小文件中)。2.对于每一个小文件,可以构建一个标识字段为key,出现次数为value的Hash map,同时记录当前出现次数最多的那个标识字段;3.可以得到...
2020-04-28 11:28:40 731
原创 hive、sparksql统计每小时的在线人数、访问时长、平均访问时长
一、业务场景描述vpn的访问日志有三个字段,用户名、时间、状态,如 张三、‘2020-04-28 10:00:00'、’login',即张三这个用户10点登陆了vpn如 张三、‘2020-04-28 11:10:00'、’login',即张三这个用户11:10退出了vpn现了一天的访问vpn的日志,如果某个用户第一条就是logout,就默认该用户的今天的第一次登录为0点,如果某个用...
2020-04-28 10:54:51 4438 1
原创 Datax数据预处理Transformer的使用
transformer定义Transformer定义:在数据同步、传输过程中,可以对数据传输进行特殊定制化的需求场景,包括1.数据字段头部、中间、尾部插入常量2.数据字段字符转换,如hz转成杭州3.数据字段置0...
2020-02-27 09:44:11 3511
原创 Flume增量抽取Oracle数据到Kafka
在Flume的lib下引入如下两个包flume-ng-sql-source-1.5.2.jarojdbc5.jar配置flink文件# declare source channel sinkagentTest0.channels = channelTest0agentTest0.sources = sourceTest0agentTest0.sinks = sinkTest0...
2019-11-15 14:19:23 1161
原创 ES 基本CURL操作
基本命令详见官网:https://www.elastic.co/guide/en/elasticsearch/reference/5.4/index.html_index 索引(文档存储的地方)_type 文档存储的类型_id 文档的唯一标识curl是利用URL语法在命令行方式下工作的开源文件传输工具,使用curl可以简单实现常见的get/post请求。简单的认为是可以在命...
2019-11-11 16:54:58 3318
原创 Flink: Job submission failed
原因:提交flink程序给Yarn时无法形成jobgraph可能由于jobgraph过大,jobmanager内存不足引起,可增大jobmanager内存 可能形成flink web在时间内没启动好,可在flink配置文件把web.timeout参数调大 web.timeout: 1000000akka.client.timeout:600sakka.ask.timeout:600s...
2019-07-24 09:49:19 1440
原创 Kafka常用操作
1.Kafka监控kafka-manager: https://github.com/yahoo/kafka-manager2.启动Kafka## 启动zookeeperbin/zkServer.sh start## 打开zk客户端查询bin/zkCli.sh -server dsjcx1:2181,dsjcx2:2181,dsjcx3:2181## 启动kafkabin/ka...
2019-07-24 09:15:27 301
原创 Git常用命令
#1.生成ssh key,可在~/.ssh目录查看ssh-keygen -t rsa -C "hua.yh@dtwave-inc.com"#2.把公钥id_rsa.pub填到(copy到)gitlab的SSH KEYS上#手动复制粘贴or 命令式pbcopy < ~/.ssh/id_rsa.pub#3.ssh命令测试通过ssh -T -p 30001 hua.yh@gitlab...
2019-07-18 10:38:53 151
原创 Python多进程示例
#!/usr/bin/env python# -*- coding:utf-8 -*-''' @author:yann @datetime:2019/1/29 3:50 PM'''import urllib2import jsonimport hashlibimport MySQLdbimport sysimport multiprocessingfrom date...
2019-07-18 10:34:02 204
原创 Flink的执行计划Execution Plan Visualization
一、生成执行计划方式一:用flink info命令执行自己对应的jar包 如bin/flink info examples/test.jar 方式二:在代码中加入 env.getExecutionPlan把上述任一方式执行产生的json复制出来二、查看执行计划打开生成flink执行计划的网站https://flink.apache.org/visualizer/ 并把json...
2019-07-17 22:53:19 901
原创 知网——杭州图书馆
在杭州缴纳过社保的杭州图书馆默认会为其开通账号进入杭州图书馆https://www.hzlib.net/ 点击登录 卡号为身份证号,初始密码为身份证9-14位3. 进入后,点击 电子资源----》更多----》中国知网CNKI4. 可以通过新版或者旧版进入知网官网5. 可以尽情在知网下载论文了。...
2019-07-09 19:02:37 9253 2
原创 Linux常用命令
linux# mac常用vimgg 第一行G 最后一行^ (shift+6) 行首$(shift+4)行尾u 撤消操作ctrl+r 恢复上一步的撤销操作open . # 打开当前目录、文件open -n /Applications/Safari.app/ # 开启新Safari窗口caffeinate -t 3600 # 一小时不进入睡眠状态purge # 清除内存和...
2019-07-09 19:02:05 109
原创 hive知识点
-- 创建并使用数据库create database db_0625;use db_0625;-- 创建内部表create table if not exists t_0625(sid int,sname string) row format delimited fields terminated by ',' stored as textfile;-- 创建外部表crea...
2019-03-01 15:33:25 223
原创 ES知识点
Elasticsearch是个开源分布式搜索引擎,提供搜集、分析、存储数据三大功能。它的特点有:分布式,零配置,自动发现,索引自动分片,索引副本机制,restful风格接口,多数据源,自动搜索负载等。在ES中,索引(index)指的是具有相同属性的文档的集合,每个索引(index)包含多个类型(type),每个类型又包含多个文档(document),每个文档包含了多个字段(field)。如果跟关系...
2019-02-28 19:31:21 670
原创 Elasticsearch配置
## ---------------------------------- Cluster -----------------------------------# 集群名称cluster.name: my-application## ------------------------------------ Node -----------------------------------...
2019-02-28 19:17:34 108
原创 ssh框架的整合(struts-2.5.5+spring-4.3.4+hibernate-5.2.4)
ssh框架的整合(struts-2.5.5+spring-4.3.4+hibernate-5.2.4)1.jdk-1.8 tomcat7的环境下2.创建web项目3.导包(struts+spring+hibernate)4.在src创建struts.xml 和 spring.xml(applicationContext.xml) struts.xml头添加几个常用属性(可不加)
2016-11-26 14:43:42 2411 1
原创 JDBC操作DAO的通用类
package com.servlet.dao;import java.lang.reflect.Field;import java.sql.Connection;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.ResultSetMetaData;import jav
2016-11-04 18:26:18 366
原创 JDBC (c3p0、dbcp、jndi及不使用连接池)
以下对java连接mysql数据库进行总结,包括c3p0、dbcp、jndi及不使用连接池的的连接方式(下文简称jdbc)。1.不使用连接池方式(Jdbc)1.1 工具类(JdbcUtil.java)package com.jdbc.util;import java.io.IOException;import java.io.InputStream;import jav
2016-10-28 20:57:13 4316 1
原创 mysql的基本概念及使用
MYSQL知识点回忆DDL(Data Definition Language):数据定义语言,用来定义数据库对象:库、表、列等;操作数据库DML(Data Manipulation Language):数据操作语言,用来定义数据库记录(数据);表的增删改DCL(Data Control Language):数据控制语言,用来定义访问权限和安全级别;用户的操作创建修改权限DQL(Da...
2016-10-25 13:10:44 284
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人