2019年11月_zxfBdd

转载 Flink 自定义trigger

自定义trigger的主要目的是为了等待数据到齐:代码如下; flink版本1.6 public class WatermarkTest { public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecuti...

2019-11-29 18:39:51 235

转载 flink的窗口理解及trigger机制

今天主要是聊一下flink的窗口计算的一个小功能-trigger。窗口这个概念还是比较好理解的，就是在某一个纬度(时间，条数等)上选取一段范围，这个范围就是窗口，然后我们后面的计算针对这个窗口进行。今天的例子主要是针对时间窗口进行讲解。不得不说flink支持的窗口操作还是比较丰富的：会话窗口、滚动窗口、滑动窗口等。就拿滑动窗口举例子，滑动窗口故名思意就是除了在时间维度上开窗之...

2019-11-29 18:29:02 868

转载 Flink实战(七) - Time & Windows编程

0相关源码掌握Flink中三种常用的Time处理方式，掌握Flink中滚动窗口以及滑动窗口的使用，了解Flink中的watermark。Flink 在流处理工程中支持不同的时间概念。1 处理时间(Processing time)执行相应算子操作的机器的系统时间.当流程序在处理时间运行时，所有基于时间的算子操作（如时间窗口）将使用运行相应算子的机器的系统时钟。每小时处理...

2019-11-29 18:26:52 560

转载 flink retract 流

摘要：通俗讲retract就是传统数据里面的更新操作，也就是说retract是流式计算场景下对数据更新的处理方式。什么是retraction（撤回）通俗讲retract就是传统数据里面的更新操作，也就是说retract是流式计算场景下对数据更新的处理方式。首先来看下流场景下的一个词频统计列子。没有retract会导致最终结果不正确↑：retract发挥的作用下面再分...

2019-11-29 14:48:16 2631

原创 casssandra 节点数据负载均衡问题

http://www.datastax.com/docs/1.2/initialize/token_generation#calculating-tokens-for-the-murmur3partitioner

2019-11-27 09:54:23 191

转载 Cassandra 负载不均衡与解决办法

最近在看Cassandra，但自打配起一个集群后，负载就不均衡了。AddressStatusStateLoadOwnsToken13415454752010178837975631657016234477410.20.223.115UpNormal138.43KB32.81%1983606099411069831950138427072080057610...

2019-11-27 09:50:07 1564

转载 cassandra多中心搭建以及使用Prometheus+Grafana监控

软件下载：http://cassandra.apache.org/download/ cassandra最新版 Python2.7 （注意版本） Java8Cassandra配置--------------------------cassandra多中心配置------------------1、编辑conf/cassandra.yaml 文件seed_provide...

2019-11-25 09:42:36 821

转载算法笔记_051:荷兰国旗问题（Java）

目录1问题描述2解决方案1问题描述现有n个红白蓝三种不同颜色的小球，乱序排列在一起，请通过两两交换任意两个球，使得从左至右的球依次为红球、白球、蓝球。这个问题之所以叫荷兰国旗，是因为将红白蓝三色的小球弄成条状物，并有序排列后正好组成荷兰国旗。2解决方案为了方便编码与讨论，用数字0表示红球，数字1表示白球，数字2表示蓝球，所以最后生成的排列为0,...

2019-11-24 13:15:54 142

转载 kafka修改分区和副本数

查看现在副本分配情况../bin/kafka-topics.sh --zookeeper 127.0.0.1:2181 --describe --topic test1Topic:test1 PartitionCount:3 ReplicationFactor:2 Configs: Topic: test1 Par...

2019-11-23 22:20:05 1283

转载 Linux中chown与chmod两个命令的区别详解

今天小编就为大家分享一篇关于Linux中chown与chmod两个命令的区别详解，小编觉得内容挺不错的，现在分享给大家，具有很好的参考价值，需要的朋友一起跟随小编来看看吧在linux系统中，chmod和chown命令都可以来设置权限，但他们也是不同的；chmod是用来设置文件夹和文件权限的，比如我们系统中的文件不可读写，需要用来设置777权限；而chown是用来设置用户组的，比如授...

2019-11-22 18:03:11 1899

转载 Mysql| 使用通配符进行模糊查询(like,%,_)

通配符的分类:%百分号通配符: 表示任何字符出现任意次数(可以是0次)._下划线通配符:表示只能匹配单个字符,不能多也不能少,就是一个字符.like操作符:LIKE作用是指示mysql后面的搜索模式是利用通配符而不是直接相等匹配进行比较.注意:如果在使用like操作符时,后面的没有使用通用匹配符效果是和=一致的,SELECT * FROM products WHERE produc...

2019-11-22 13:32:56 1360

转载 MYSQL遇到Deadlock found when trying to get lock，解决方案

最近遇到一个MYSQL update语句出现Deadlock found when trying to get lock的问题，分析一下原因。什么情况下会出现Deadlock found when trying to get lock？https://dev.mysql.com/doc/refman/5.6/en/innodb-deadlocks.html出现死锁需要2个条...

2019-11-20 18:56:08 1196 1

转载 mysql innodb 并发插入问题，包大量死锁错误

开了10个并发写线程，没1000条记录批量提交一次，结果mysql包大量死锁错误！"Deadlock found when trying to get lock; try restarting transaction"引擎用的是Innodb 主键字段是auto_increament.mysql 有这么脆弱吗？create table ASIA_ODDS( id in...

2019-11-20 18:49:28 1719

转载 cassandra cluster加节点

cassandra比较智能，需要做的工作不多。A：10..1 单节点clusterB：10..2 需要加入的新机器步骤：首先将A的程序目录都拷贝到B上在B上修改conf/cassandra.yaml，有如下要点： cluster_name 这个是自动发现集群的，必须和A一致 initial_token 这个各节点不同，cassandra share bin里有个ca...

2019-11-18 09:39:15 355

转载 HIVE常用命令之MSCK REPAIR TABLE命令简述

工作中发现很多同事连基础的hive命令都不知道，所以准备写一个系列把hive一些常用的命令进行一个总结。第一个讲的命令是MSCK REPAIR TABLE。MSCK REPAIR TABLE命令是做啥的MSCK REPAIR TABLE命令主要是用来解决通过hdfs dfs -put或者hdfs api写入hive分区表的数据在hive中无法被查询到的问题。我们知道hiv...

2019-11-15 11:35:15 415

转载快速排序partition过程常见的两种写法+快速排序非递归实现

这里不详细说明快速排序的原理，具体可参考here快速排序主要是partition的过程，partition最常用有以下两种写法第一种： 1 2 3 4 5 6 7 8 9 10 11 12 13 intmypartition(vector<int&g...

2019-11-14 21:11:18 211

转载排序：归并排序的迭代写法与递归写法

两种写法的时间复杂度都为O(n*logn)迭代写法：思路：从最底层开始merge，从图中看就是从最上层到最下层，不断的排序合并。代码：递归写法：代码：...

2019-11-14 21:10:10 127

转载归并排序merge函数的两种写法

第一种：将[left, mid，right]划分为left和right两个子闭区间。其中将mid定义为右子区间的第一个元素的下标。代码实现：<span style="color:#000000"><code>template <typename T>void merge(T arr[], int l, int m, int r){...

2019-11-14 21:09:05 841

转载快排中partition函数的几种写法记录

void swap(int *a, int *b) { if(a == b) return ; int temp = *a; *a = *b; *b = temp; return ; } int partition1(int *a, unsigned low, un...

2019-11-14 21:07:02 339

转载 impala--NDV()函数

使用impala查询引擎的时候，如果count(disticnt column)数据量过大会报错，报错内容正在提取遇到以下错误的结果：org.apache.hive.service.cli.HiveSQLException: AnalysisException: all DISTINCT aggregate functions need to have the same set of...

2019-11-14 18:49:41 2344

转载 20个公司绝对不会告诉你的潜规则[zz]

1.入职时的工资高低不重要，只要你努力工作你会得到相应待遇的　　我估计几乎找过工作的人都听过这句话，当我们确定被聘用跟公司谈工资时，他们都会说“如果以后你业绩突出、努力工作，你的报酬也会相应增加的”，特别是当第一次找工作的时候大多数人会相信这些话，但是千万别相信。　　刚入职时，你的工资就是你的全部（当然有一些岗位，比如销售或弹性工资的岗位除外，而且你入职以后大...

2019-11-13 17:55:27 323

现在你有 10 个接口访问日志文件，每个日志文件大小约 300MB，每个文件里的日志都是按照时间戳从小到大排序的。你希望将这 10 个较小的日志文件，合并为 1 个日志文件，合并之后的日志仍然按照时间戳从小到大排列。如果处理上述排序任务的机器内存只有 1GB，你有什么好的解决思路，能“快速”地将这 10 个日志文件合并吗？课后思考解答：1.申请 10 个数组，每个数组 30M。再申请个临时数...

2019-11-12 21:33:26 1393 1

转载 notepad++ 行首行尾添加字符

有一次要处理SQL,拿到了脚本.但是要将其写入java 代码中,要在行首和行尾添加上引号.利用notepad++进行编辑.$表示行尾,^表示行首.如上图,就这样.很高效.如果只是在行尾添加字符,还可以如下操作:点击视图->显示符号->显示行尾符勾选后，文件会显示“CR”、“LF”如果要查找行尾符，Ctrl+F调出查找对话框，在查找目标框输...

2019-11-12 17:25:18 100

转载 Quick Selcet，O(n)的时间复杂度内找到无序数组中的第k大的数

Quick Select实质是快速排序算法中的一个步骤（找出未排序数组中的任意大的元素），其中用到了分隔数组的思想，默认的分隔条件是小于等于中间元素的在左边，大于的放在右边，这样将原问题分割一半，在确定的一半空间里寻找第k大的元素。Quick Select平均情况下的时间复杂度是O(n)。相关题目：Kth Largest Element，Median（当数组长度为奇数和偶数时，其中位数是...

2019-11-11 22:49:21 816

转载 Kafka consumer group位移重设

　　本文阐述如何使用Kafka自带的kafka-consumer-groups.sh脚本随意设置消费者组(consumer group)的位移。需要特别强调的是，这是0.11.0.0版本提供的新功能且只适用于新版本consumer。　　在新版本之前，如果要为已有的consumer group调整位移必须要手动编写Java程序调用KafkaConsumer#seek方法，费时费力不说还容...

2019-11-08 10:17:33 473

转载九、Kafka 消费位点

检查点使得 Apache Flink 具有容错能力，并确保了即时发生故障也能保证流应用程序的语义。检查点是以固定的间隔来触发的，该间隔可以在应用中配置。Apache Flink 中实现的 Kafka 消费者是一个有状态的算子（operator），它集成了 Flink 的检查点机制，它的状态是所有 Kafka 分区的读取偏移量。当一个检查点被触发时，每一个分区的偏移量都被存到了这个检...

2019-11-08 10:09:50 1595

转载 Cassandra_Cassandra 使用心得二三说

Cassandra 作为一个比较新兴的数据库，对于大数据量的支持比较好。但是使用Cassandra 中也有许多需要注意的地方，我来总结一下，本文不定期更新。。。特点一：Cassandra 作为一个数据库支持 TTL ，生存时长(expire time)示例：1.针对每一条数据：INSERT INTO latest_temperatures(weath...

2019-11-07 13:34:46 394

转载 cassandra的四种key

cassandra的四种keyprimary key,partition key,composite keyclustering keyprimary key用于数据分区的的key，其中primary key有以下几种形式：1，最基本的形式：create table stackoverflow ( key text PRI...

2019-11-06 17:12:50 442

转载链表排序（冒泡、选择、插入、快排、归并、希尔、堆排序）

这篇文章分析一下链表的各种排序方法。以下排序算法的正确性都可以在LeetCode的链表排序这一题检测。本文用到的链表结构如下（排序算法都是传入链表头指针作为参数，返回排序后的头指针）struct ListNode { int val; ListNode *next; ListNode(int x) : val(x), next(NULL) {} };...

2019-11-05 21:06:43 1322

转载 Kafka学习之旅(十五):重设消费者组位移

简介相信大家也遇到过需要重某个位置或者时间点重新消费的情况那么本篇讲下重新设置消费组位移。Kafka 一个比较有特色的设计是由于它是基于日志结构（log-based）的消息引擎，消费者在消费消息时，仅仅是从磁盘文件上读取数据而已，是只读的操作，因此消费者不会删除消息数据。同时，由于位移数据是由消费者控制的，因此它能够很容易地修改位移的值，实现重复消费历史数据的功能。重设位移大致可以从...

2019-11-04 13:47:18 177

转载当年，我为何关停了亲手创建的“北京圣思园”

本文是圣思园公众号所发表的第二篇文章，今天不经意间再次看到，感触颇深，再次发表，算是了却了自己的一桩心愿。现在在搜索引擎中搜索“圣思园”，还会有提示关于圣思园倒闭的记录。下面是在微软必应中搜索圣思园时的提示与相关搜索。当年的“北京圣思园”是在2010年11月开始正式开班的。前期，我为之做出了很充分的准备。我在2010年7月份离开了毕业之后就职的第一家公司：理光软件研究所...

2019-11-03 23:31:33 777 1

转载巧用 MySQL Group By 和IF 解法

解决方案：分析建表：模拟建表SQL语句：/*Navicat MySQL Data TransferSource Server : localhost_3306Source Server Version : 50130Source Host : localhost:3306Source Database : tem...

2019-11-01 11:07:04 4081

u011250186的博客