Sshine___-CSDN博客

原创 ClickHouse的自评

简介Clickhouse是一个列式数据库管理系统。官网地址：https://clickhouse.tech/ 官方文档：https://clickhouse.tech/docs/en/ 官方学习平台：https://play.clickhouse.tech/?file=welcome 安装步骤：https://clickhouse.tech/#quick-start 支持在线安装和离线安装存储支持数据压缩存储支持机械盘存储并发支持分布式的并发处理查询支持分布式..

2021-08-17 17:50:02 369

原创 Metabase介绍

介绍 metabase是一款半开源的BI分析工具，开发语言clojure+js为主。官网：https://www.metabase.com/可以利用Metabase进行数据分析，数据可视化，报表生成等。安装下载metabase，用jvm运行初始化创建用户、新增数据库略。。支持的输入数据库metabase主要功能创建数据集、在线可视化分析、生成分析图表、构造d...

2021-08-13 14:48:46 17857 2

转载 Spark local 运行须知

下载带Hadoop的spark版本本地解压spark压缩包基本步骤：1.到spark官网 https://spark.apache.org/downloads.html 下载with hadoop版本的这里要注意的是，下载with hadoop版本的，即本地不需要再进行hadoop集群的安装部署。下载后解压，到bin目录下执行spark-shell.cmd，此时会报java.lang.IllegalArgumentException: Error while instanti..

2020-06-04 15:45:54 370

原创 PG -模糊查询-json字段索引

pg有json字段的索引，可以用Gin做类似全文索引查询sql:SELECT * FROM test WHERE "content" @> '{"domain":"www.sina1.com"}' ORDER BY "content" DESC LIMIT 1;以上由于内部机制不加排序会不触发gin索引，所以要加排序；原先不加Limit，不走索引: 首先表里面有99w行记录...

2019-09-02 15:13:49 1994 1

原创 Pg数据库的IP地址最优查询

pg有专门的IP数据类型 inet,可直接对字段操作，>=,<=IP地址搜索为了提高搜索速度，需要建索引Btree索引（最快）btree (ip_start, ip_end)+加上order by ip_start desc limit 1;前提条件：表里IP范围不能重叠，一个IP只能查一条记录；所有IP都能查到，不然会扫描一半的索引；因为表里ip范围是不重叠的。基本上i...

2019-08-08 10:31:42 1559

原创 mysql ip处理

IP值匹配需要按照字符来，但是“001.000.000.000” 和“1.0.0.0”，不一致不会匹配，且不能范围查询，betwen toINET_ATON(ip) :将 IP 转成一个积和，用来范围匹配INET_NTOA(INET_ATON(ip)) 再转成IP 可去除多的前缀0，“1.0.1.0”SELECT ip_left,INET_ATON(INET_NTOA(INET_...

2019-05-07 15:17:58 403

原创 NATS 分布式消息队列系统

官网测试性能不错，使用成熟，GO社区的常用消息中间系统，不同于Java社区的kafka，nats偏于redis式的消息中间件，不不像Kafka式的可以持久化。==摘录=https://www.cnblogs.com/liang1101/p/6641082.html==1、介绍NATS(Messagebus):从CloudFoundry的总架构图看，位于各模块中心位置的是一个...

2019-04-22 10:25:39 24074 2

原创 flume 入门

flume实现场景：日志流式系统多个agent 通过设置 sink，source 可以实现数据合流到一个agent上，在利用logSink 数据落地，或者自定义sink，利用post请求发到接口参考文件：flume 介绍：https://www.cnblogs.com/zhangyinhua/p/7803486.html#_label2Apache-Flume日志收集+...

2019-04-11 15:23:44 238

原创 Redis 介绍和使用注意

redis ：*****************redis适用场合****************1.取最新N个数据的操作2.排行榜应用,取TOPN操作3.需要精确设定过期时间的应用4.计数器应用5.Uniq操作,获取某段时间所有数据排重值6.实时系统,反垃圾系统7.Pub/Sub构建实时消息系统7.Pub/Sub构建实时消息系统8.构建队列系统9.缓存...

2019-03-19 16:01:30 144

原创 sparkSQL数据倾斜

场景一：大表join小表：把小表broadcast，和cache 到内存，并且大表加了distribute by rand()然后在spark-submit中加一个conf：spark.sql.autoBroadcastJoinThreshold=200000000。此配置限定小表大小，单位为字节，只要表大小小于此取值（此处约为200m），且被执行过cache table的小表，在做jo...

2019-02-21 14:46:06 2531

原创 Git windows无法连接问题

正确安装Git 设置好用户名和邮箱；可配置下ssh公钥 https://www.cnblogs.com/hafiz/p/8146324.html如果还不行，检查好权限，用户没问题后，再看下known_hosts；http://blog.51cto.com/abezoo/2089127使用git连接之前配置好的公司内部git服务器时遇到无连接权限问题。根据提示发现是服务器切换了内...

2019-01-11 10:29:38 1392

原创 mysql 5.8安装问题

mysql Client does not support authentication protocol requested by server; consider upgrading MySQL只安装MySQL sever 用navicat 连接解决方法：管理员后台（root），输入密码use mysql;ALTER USER 'root'@'localhost' IDEN...

2018-09-26 10:19:04 710

转载 Scala跳出循环的三种方法

Scala跳出循环的三种方法 1、基于boolean类型的控制变量while循环：var flag = truevar res = 0var n = 0while(flag) { res += n n += 1 if (n == 5) { flag = false }}for循环：（高级for循环，加上了if守卫）var flag = true...

2018-09-04 15:34:02 1967

原创 Kafka producer

val props = new Properties()props.put("metadata.broker.list", Conf.Brokers) // broker 如果有多个,中间使用逗号分隔props.put("serializer.class", "kafka.serializer.StringEncoder")props.put("request.required.acks",...

2018-07-05 14:32:43 258

原创 Checkpoint java.lang.NullPointerException异常

aDStream.cache()aDStream.foreachRDD{rdd=>rdd.checkpoint()}aDStream.foreachRDD{rdd=>outprint}有时会报错：输出时取aDStream时，如果rdd=null就会报错解决方法，加判断

2018-06-12 19:32:14 652

原创 spark jdbc 序列化

jdbc prep是一个PrepareStatement对象，这个对象无法序列化，而传入map中的对象是需要分布式传送到各个节点上，传送前先序列化，到达相应机器上后再反序列化，PrepareStatement是个Java类，如果一个java类想(反)序列化，必须实现Serialize接口，PrepareStatement并没有实现这个接口，对象prep在driver端，collect后的数据也在d...

2018-06-12 11:31:00 779

原创 scala Map

Map结构是一种非常常见的结构，在各种程序语言都有对应的api，由于Spark的底层语言是Scala，所以有必要来了解下Scala中的Map使用方法。（1）不可变Map特点：api不太丰富如果是var修饰，引用可变，支持读写如果是val修饰，引用不可变，只能写入一次值，其后只读var a:Map[String,Int]=Map("k1"->1,"k2"->2)//初始化构造函数 ...

2018-06-12 10:34:48 219

原创 Scala的foldLeft和foldRight和/:和:\

代码：结果：/:是foldLeft的缩写，:\是foldRight的缩写a/:b 结果得是b

2018-06-05 10:11:22 2166

转载 Spark的RDD操作之Join大全！

Spark的RDD操作之Join大全！一、RDD的Join操作有哪些？（一）Join：Join类似于SQL的inner join操作，返回结果是前面和后面集合中配对成功的，过滤掉关联不上的。源代码如下：[plain] view plain copy/** * Return an RDD containing all pairs of elements with matching keys in...

2018-05-15 17:28:28 7066

原创 Scala implicit 隐式详解

implicit的作用，有2点: 第一个扩展其他类，增加方法；class A (val data:Int){ ...}此时我们希望扩展该类的功能，增加类A的数据显示功能implicit class B(a:A) { def show { println(a.data) }}此时我们扩展了类A功能，可以如下使用。val...

2018-05-14 10:04:23 557

转载 hive

一、关系运算：1. 等值比较: = 语法：A=B 操作类型：所有基本类型描述:如果表达式A与表达式B相等，则为TRUE；否则为FALSE 举例： hive>select 1 from lxw_dual where 1=1; 12. 不等值比较: <> 语法: A &l...

2018-05-09 15:43:22 279

转载 scala正则表达式基础

--------------------------目录--------------------------1、正则表达式阐述2、scala正则表达式基础---------------------------------------------------------1、正则表达式阐述正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串...

2018-05-09 10:23:25 564

转载 Spark核心RDD：combineByKey函数详解

为什么单独讲解combineByKey？因为combineByKey是Spark中一个比较核心的高级函数，其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等如下给出combineByKey的定义，其他的细节暂时忽略(1.6.0版的函数名更新为combineByKeyWithClassTag)[java] view plain copydef combi...

2018-05-08 11:45:53 195

转载 HDFS 基础命令

前言HDFS命令基本格式：hadoop fs -cmd < args >ls 命令hadoop fs -ls /12列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /12列出hdfs文件系统所有的目录和文件put 命令hadoop fs -put < local file > < hdfs file >12hdfs file的父...

2018-04-28 15:40:30 191

转载 python print格式化输出

python print格式化输出。1. 打印字符串print ("His name is %s"%("Aviad"))效果：2.打印整数print ("He is %d years old"%(25))效果：3.打印浮点数print ("His height is %f m"%(1.83))效果：4.打印浮点数（指定保留小数点位数）print ("His height is %.2f m"%(1...

2018-04-28 15:38:21 786

转载 IntelliJ IDEA与Maven 构建 Scala 项目

转载：https://blog.csdn.net/u011513853/article/details/52896230参考https://github.com/judasn/IntelliJ-IDEA-Tutorial（非常好的IntelliJ IDEA教程）https://www.cnblogs.com/hanyinglong/p/5030907.html（打包）...

2018-04-25 10:21:18 281

原创 Oracle 用户（user)和模式(schema)的区别

（一）什么Oracle叫用户（user）：　　A user is a name defined in the database that can connect to and access objects.大意：Oracle用户是用连接数据库和访问数据库对象的。（用户是用来连接数据库访问数据库）。（二）什么叫模式(schema)：　　A schema is

2018-01-09 13:23:30 1418

shine