custom
哥伦布112
Apache IoTDB contributor
https://github.com/WilliamSong11/iotdb
展开
-
sql:谓词
谓词就是返回值为真值的函数。1.like谓词:字符串的部分一致查询取ddd开头的字符串: select * from SampleLike where strcol like 'ddd%'; %代表0字符以上的任意字符串,是通配符其中的一种2.between谓词:范围查找选取销售单价为100-1000的商品: select product_name, sale_price from Product where sal..原创 2020-07-29 18:33:10 · 325 阅读 · 0 评论 -
关系代数运算符
关系代数运算符集合运算符运算符 含义 英文 ∪ 并 Union − 差 Difference ∩ 交 Intersection × 笛卡尔积 Cartesian Product 比较运算符运算符 含义 > 大于 ≥ 大于等于 < 小于 ≤ 小于等于 = 等于 ≠ 不等于 专门的关系运算符运算符 含义 英文 σ原创 2020-07-29 17:23:02 · 5084 阅读 · 1 评论 -
spark Streaming 自定义source产生随机数据进行测试
1,因业务需要,需要自己定义数据源,来一直产生数据,需要继承 Receiver类import org.apache.spark.storage.StorageLevelimport org.apache.spark.streaming.receiver.Receiver/** * @Author: wpp * @Date: 2020/5/4 23:36 * *///自定义数据源class CustomSourceReceiver(host: String, port:...原创 2020-07-25 15:53:22 · 341 阅读 · 0 评论 -
Spark Streaming自定义Receiver
一 背景Spark社区为Spark Streaming提供了很多数据源接口,但是有些比较偏的数据源没有覆盖,由于公司技术栈选择,用了阿里云的MQ服务ONS,要做实时需求,要自己编写Receiver二 技术实现1.官网的例子已经比较详细,但是进入实践还需要慢慢调试,官方文档。2.实现代码,由三部分组成,receiver,inputstream,util3.receiver代码import java.io.Serializableimport java.util.Properti原创 2020-07-25 15:52:43 · 313 阅读 · 0 评论 -
Spark Streaming 运行日志 、 任务监控 Web UI 、Kafka 、Listener 邮件短信通知
任务监控一、 Spark Web UI对于 Spark Streaming 任务的监控可以直观的通过 Spark Web UI ,该页面包括 Input Rate, Scheduling Delay、Processing Time 等,但是这种方法运维成本较高,需要人工不间断的巡视。这其中包括接受的记录数量,每一个batch内处理的记录数,处理时间,以及总共消耗的时间。在上述参数之中最重要的两个参数分别是Porcessing Time 以及 Scheduling DelayPorc...原创 2020-07-25 15:51:18 · 1159 阅读 · 0 评论 -
SparkSQL基于DataSourceV2自定义数据源
SparkSQL基于DataSourceV2自定义数据源版本说明:Spark 2.3前言:之前在SparkSQL数据源操作文章中整理了一些SparkSQL内置数据源的使用,总的来说SparkSQL支持的数据源还是挺丰富的,但业务上可能不拘束于这几种数据源,比如将HBase作为SparkSQL的数据源,REST数据源等。这里主要讲一下在Spark2.3版本之后推出的DataSourceV2,基于DataSourceV2实现自定义数据源1 DataSourceV1 VS DataSourceV2自S原创 2020-07-25 15:50:29 · 1237 阅读 · 0 评论 -
通过SparkListener监控spark应用
监控spark应用的方式比较多,比如spark on yarn可以通过yarnClient api监控。这里介绍的是spark内置的一种监控方式如果是sparkStreaming,对应的则是streamingListenerpackage cn.com.kong;import org.apache.spark.SparkConf;import org.apache.spark.scheduler.*;import org.apache.spark.sql.SaveMode;impor原创 2020-07-22 00:53:26 · 1325 阅读 · 0 评论 -
Spark 自定义外部数据源2
Data Source APIBasic InterfacesBaseRelation:展示从DataFrame中产生的底层数据源的关系或者表。定义如何产生schema信息。或者说是数据源的关系。 RelationProvider:获取参数列表,返回一个BaseRelation对象。 TableScan:对数据的schame信息,进行完整扫描,返回一个没有过滤的RDD。 DataSourceRegister:定义数据源的简写。ProvidersSchemaRelationProv原创 2020-07-21 23:17:01 · 597 阅读 · 0 评论 -
spark自定义RDD
一、为什么需要自定义RDD1. spark提供了很多方法读数据源,比如我们当前可以从hdfs文件、jdbc、mongo、hbase等等将数据包装成RDD供我们后续进行处理。如果我们想要读memcache中的数据恐怕就没有现成的了,需要我们自己实现自己的RDD。2. RDD是一种弹性分布式数据集,本质就是对数据的封装与抽象。讲道理我们可以将任何我们想要的数据按照我们的业务情况将数据进行分片,而不是对spark的API深度依赖。二、搭建项目本demo完成功能:...原创 2020-07-21 17:32:05 · 552 阅读 · 0 评论 -
Spark SQL自定义外部数据源
1 涉及到的API 1 2 BaseRelation: In a simple way, we can say it represents the collection of tuples with known schema TableScan: provides a way to scan the data and generates the RDD[Row] from the data<br> RelationProvider: takes .原创 2020-07-21 17:28:52 · 348 阅读 · 0 评论