- 博客(13)
- 收藏
- 关注
原创 Postgres窗口函数
Postgres窗口函数定义官方文档对窗口函数的解释:A window function performs a calculation across a set of table rows that are somehow related to the current row. This is comparable to the type of calculation that can be done with an aggregate function. However, window funct
2020-09-28 11:43:24 164
原创 postgres_fdw操作
postgres_fdw常用操作创建postgres_fdw插件foreign serveruser mappingforeign table创建postgres_fdw插件create extension if not exist postgres_fdw;foreign serveruser mappingforeign table...
2019-09-19 12:28:58 2022
翻译 kafka常用命令摘选
kafka常用命令新老版本区别查看topic分区信息添加topic删除topictopic增加分区topic添加配置topic删除配置查看已有的消费者组查看消费者组下所有消费者的消费情况查看消费者组下的所有消费者删除消费者组重置消费者位移以 kafka 2.2.x 为基础,假定当前已位于kafka工作目录下。新老版本区别若果是老版本的消费者,将 –bootstrap-server 换成 –z...
2019-08-26 18:08:22 224
原创 记一次PipelineDB数据校正
记一次PipelineDB数据校正计算流程问题解决步骤结果校正前的AB执行的sql校正后的A计算流程进程消费kafka数据,写入到foreign table T,通过materialized view A实时计算聚合结果。问题给消费者进程配置错了group_id,导致一段时间内的数据重复消费,需要纠正这段时间内偏大的结果。解决步骤根据时间过滤出重复消费的数据。根据这部分数据计算出聚...
2019-08-13 16:27:05 166
原创 postgres创建只读用户
postgres创建只读角色创建角色(组)将已有表的select权限赋给角色(组)将以后所有新建表的select权限赋予给角色创建用户,并继承角色的权限创建角色(组)CREATE ROLE readaccess;将已有表的select权限赋给角色(组)GRANT USAGE ON SCHEMA public TO readaccess;GRANT SELECT ON ALL TABLE...
2019-05-31 11:05:04 637
原创 pipelineDB集成kafka
pipeline_kafka插件安装和使用插件安装librdkafka安装apt安装编译安装pipeline_kafka安装编译安装修改postgres配置并重启插件使用添加broker消费topic中的数据到foreign table启动/停止pipelineDB可通过插件安装的形式集成kafka, 但根据本人测试情况来看, 该插件对日志的规整性要求很高, 只适用于低流量且数据格式规整的业务场...
2019-04-23 00:08:33 853 4
原创 postgreSQL及pipelineDB常用命令
个人常用命令记录启动新实例初始化数据目录加载数据目录并启动权限操作修改密码创建只读用户表、视图操作foreign tableview复制表结构索引数据迁移查询结果导出为csvcsv导入到table查询结果写入到table查询结果写入到viewps: 以下操作均假定开发者通过apt方式安装pg, 且当前用户为postgres启动新实例初始化数据目录/usr/lib/postgresql/11...
2019-04-21 23:57:37 988
翻译 (译) pyspark.sql.Column模块
class pyspark.sql.ColumnDataFrame中的一列(1.3版本新增)#可以通过如下方式创建一个Column实例:# 1. 从DataFrame中选取一列df.colNamedf["colName"]# 2. 表达式创建df.colName + 11 / df.colNamealias(*alias)对列进行重命名(1.3版本新增)...
2018-02-12 02:58:31 6022
翻译 (译) pyspark.sql.DataFrame模块
class pyspark.sql.DataFrame(jdf, sql_ctx)分布式的列式分组数据集(1.3版本新增)一个DataFrame对象相当于Spark SQL中的一个关系型数据表,可以通过SQLContext中的多个函数生成,如下例:people = sqlContext.read.parquet("...")创建了一个DataFrame后,可以用多种语言对Da
2018-02-07 01:37:33 6926
翻译 (译) pyspark.sql.SparkSession模块
class pyspark.sql.SparkSession(sparkContext, jsparkSession=None)用DataSet和DataFrame编写Spark程序的入口SparkSession的功能包括:创建DataFrame以关系型数据库中表的形式生成DataFrame,之后便可以执行SQL语句,适合小数据量的操作读取.parquet格式的文件,得到D
2018-02-04 18:55:31 11738
翻译 (译) pyspark.sql 模块概要
前言:鉴于以后的工作会经常使用pyspark,因此对pyspark官方API中比较常用的一些模块进行翻译,顺便训练一下自己的英文阅读能力.模块概要导入Spark SQL和Dataframes中的各个类 pyspark.sql.SparkSession ——– DataFrame 和SQL功能的入口 查看翻译 pyspark.sql.DataFrame ——– 指定列组成的分布...
2018-02-04 18:52:10 459
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人