cjhnbls-CSDN博客

原创 Postgres窗口函数

Postgres窗口函数定义官方文档对窗口函数的解释：A window function performs a calculation across a set of table rows that are somehow related to the current row. This is comparable to the type of calculation that can be done with an aggregate function. However, window funct

2020-09-28 11:43:24 164

原创 postgres_fdw操作

postgres_fdw常用操作创建postgres_fdw插件foreign serveruser mappingforeign table创建postgres_fdw插件create extension if not exist postgres_fdw;foreign serveruser mappingforeign table...

2019-09-19 12:28:58 2022

翻译 kafka常用命令摘选

kafka常用命令新老版本区别查看topic分区信息添加topic删除topictopic增加分区topic添加配置topic删除配置查看已有的消费者组查看消费者组下所有消费者的消费情况查看消费者组下的所有消费者删除消费者组重置消费者位移以 kafka 2.2.x 为基础，假定当前已位于kafka工作目录下。新老版本区别若果是老版本的消费者，将 –bootstrap-server 换成 –z...

2019-08-26 18:08:22 224

原创记一次PipelineDB数据校正

记一次PipelineDB数据校正计算流程问题解决步骤结果校正前的AB执行的sql校正后的A计算流程进程消费kafka数据，写入到foreign table T，通过materialized view A实时计算聚合结果。问题给消费者进程配置错了group_id，导致一段时间内的数据重复消费，需要纠正这段时间内偏大的结果。解决步骤根据时间过滤出重复消费的数据。根据这部分数据计算出聚...

2019-08-13 16:27:05 166

原创 postgres创建只读用户

postgres创建只读角色创建角色（组）将已有表的select权限赋给角色（组）将以后所有新建表的select权限赋予给角色创建用户，并继承角色的权限创建角色（组）CREATE ROLE readaccess;将已有表的select权限赋给角色（组）GRANT USAGE ON SCHEMA public TO readaccess;GRANT SELECT ON ALL TABLE...

2019-05-31 11:05:04 637

翻译 PipelineDB官方文档翻译

官方英文文档0.9.6中文文档1.0.0中文文档

2019-05-12 00:35:56 594

原创 pipelineDB集成kafka

pipeline_kafka插件安装和使用插件安装librdkafka安装apt安装编译安装pipeline_kafka安装编译安装修改postgres配置并重启插件使用添加broker消费topic中的数据到foreign table启动/停止pipelineDB可通过插件安装的形式集成kafka, 但根据本人测试情况来看, 该插件对日志的规整性要求很高, 只适用于低流量且数据格式规整的业务场...

2019-04-23 00:08:33 853 4

原创 postgreSQL及pipelineDB常用命令

个人常用命令记录启动新实例初始化数据目录加载数据目录并启动权限操作修改密码创建只读用户表、视图操作foreign tableview复制表结构索引数据迁移查询结果导出为csvcsv导入到table查询结果写入到table查询结果写入到viewps: 以下操作均假定开发者通过apt方式安装pg, 且当前用户为postgres启动新实例初始化数据目录/usr/lib/postgresql/11...

2019-04-21 23:57:37 988

原创 pipelineDB安装

pipelineDB安装安装apt方式安装源码编译安装安装pipelineDB安装步骤概述apt方式安装源码编译安装

2019-04-19 17:04:55 620

翻译 (译) pyspark.sql.Column模块

class pyspark.sql.ColumnDataFrame中的一列(1.3版本新增)#可以通过如下方式创建一个Column实例:# 1. 从DataFrame中选取一列df.colNamedf["colName"]# 2. 表达式创建df.colName + 11 / df.colNamealias(*alias)对列进行重命名(1.3版本新增)...

2018-02-12 02:58:31 6022

翻译 (译) pyspark.sql.DataFrame模块

class pyspark.sql.DataFrame(jdf, sql_ctx)分布式的列式分组数据集(1.3版本新增)一个DataFrame对象相当于Spark SQL中的一个关系型数据表,可以通过SQLContext中的多个函数生成,如下例:people = sqlContext.read.parquet("...")创建了一个DataFrame后,可以用多种语言对Da

2018-02-07 01:37:33 6926

翻译 (译) pyspark.sql.SparkSession模块

class pyspark.sql.SparkSession(sparkContext, jsparkSession=None)用DataSet和DataFrame编写Spark程序的入口SparkSession的功能包括：创建DataFrame以关系型数据库中表的形式生成DataFrame，之后便可以执行SQL语句，适合小数据量的操作读取.parquet格式的文件，得到D

2018-02-04 18:55:31 11738

翻译 (译) pyspark.sql 模块概要

前言:鉴于以后的工作会经常使用pyspark,因此对pyspark官方API中比较常用的一些模块进行翻译,顺便训练一下自己的英文阅读能力.模块概要导入Spark SQL和Dataframes中的各个类 pyspark.sql.SparkSession ——– DataFrame 和SQL功能的入口查看翻译 pyspark.sql.DataFrame ——– 指定列组成的分布...

2018-02-04 18:52:10 459

cjhnbls的博客