- 博客(27)
- 资源 (2)
- 收藏
- 关注
原创 ClickHouse的自评
简介Clickhouse是一个列式数据库管理系统。官网地址:https://clickhouse.tech/ 官方文档:https://clickhouse.tech/docs/en/ 官方学习平台:https://play.clickhouse.tech/?file=welcome 安装步骤:https://clickhouse.tech/#quick-start 支持在线安装和离线安装 存储支持数据压缩存储 支持机械盘存储并发支持分布式的并发处理查询支持分布式..
2021-08-17 17:50:02 279
原创 Metabase介绍
介绍 metabase是一款半开源的BI分析工具,开发语言clojure+js为主。 官网:https://www.metabase.com/可以利用Metabase进行数据分析,数据可视化,报表生成等。 安装 下载metabase,用jvm运行 初始化 创建用户、新增数据库略。。支持的输入数据库metabase主要功能创建数据集、在线可视化分析、生成分析图表、构造d...
2021-08-13 14:48:46 16927 2
转载 Spark local 运行须知
下载带Hadoop的spark版本本地解压spark压缩包基本步骤:1.到spark官网 https://spark.apache.org/downloads.html 下载with hadoop版本的这里要注意的是,下载with hadoop版本的,即本地不需要再进行hadoop集群的安装部署。下载后解压,到bin目录下执行spark-shell.cmd,此时会报java.lang.IllegalArgumentException: Error while instanti..
2020-06-04 15:45:54 307
原创 PG -模糊查询-json字段索引
pg有json字段的索引,可以用Gin做类似全文索引查询sql:SELECT * FROM test WHERE "content" @> '{"domain":"www.sina1.com"}' ORDER BY "content" DESC LIMIT 1;以上由于内部机制不加排序会不触发gin索引,所以要加排序;原先不加Limit,不走索引: 首先表里面有99w行记录...
2019-09-02 15:13:49 1858 1
原创 Pg数据库的IP地址最优查询
pg有专门的IP数据类型 inet,可直接对字段操作,>=,<=IP地址搜索为了提高搜索速度,需要建索引Btree索引(最快)btree (ip_start, ip_end)+加上order by ip_start desc limit 1;前提条件:表里IP范围不能重叠,一个IP只能查一条记录;所有IP都能查到,不然会扫描一半的索引;因为表里ip范围是不重叠的。基本上i...
2019-08-08 10:31:42 1440
原创 mysql ip处理
IP值匹配 需要按照字符来,但是“001.000.000.000” 和“1.0.0.0”,不一致不会匹配,且不能范围查询,betwen toINET_ATON(ip) :将 IP 转成一个积和,用来范围匹配INET_NTOA(INET_ATON(ip)) 再转成IP 可去除多的前缀0,“1.0.1.0”SELECT ip_left,INET_ATON(INET_NTOA(INET_...
2019-05-07 15:17:58 347
原创 NATS 分布式消息队列系统
官网测试性能不错,使用成熟,GO社区的常用消息中间系统,不同于Java社区的kafka,nats偏于redis式的消息中间件,不不像Kafka式的可以持久化。==摘录=https://www.cnblogs.com/liang1101/p/6641082.html==1、介绍NATS(Messagebus):从CloudFoundry的总架构图看,位于各模块中心位置的是一个...
2019-04-22 10:25:39 23597 2
原创 flume 入门
flume实现场景:日志流式系统多个agent 通过设置 sink,source 可以实现数据合流到一个agent上,在利用logSink 数据落地,或者自定义sink,利用post请求发到接口参考文件:flume 介绍:https://www.cnblogs.com/zhangyinhua/p/7803486.html#_label2Apache-Flume日志收集+...
2019-04-11 15:23:44 144
原创 Redis 介绍和使用注意
redis :*****************redis适用场合****************1.取最新N个数据的操作2.排行榜应用,取TOPN操作3.需要精确设定过期时间的应用4.计数器应用5.Uniq操作,获取某段时间所有数据排重值6.实时系统,反垃圾系统7.Pub/Sub构建实时消息系统7.Pub/Sub构建实时消息系统8.构建队列系统9.缓存...
2019-03-19 16:01:30 107
原创 sparkSQL数据倾斜
场景一:大表join小表: 把小表broadcast,和cache 到内存,并且大表加了distribute by rand()然后在spark-submit中加一个conf:spark.sql.autoBroadcastJoinThreshold=200000000。此配置限定小表大小,单位为字节,只要表大小小于此取值(此处约为200m),且被执行过cache table的小表,在做jo...
2019-02-21 14:46:06 2455
原创 Git windows无法连接问题
正确安装Git 设置好用户名和邮箱;可配置下ssh公钥 https://www.cnblogs.com/hafiz/p/8146324.html如果还不行,检查好权限,用户没问题后,再看下known_hosts;http://blog.51cto.com/abezoo/2089127使用git连接之前配置好的公司内部git服务器时遇到无连接权限问题。根据提示发现是服务器切换了内...
2019-01-11 10:29:38 1307
原创 mysql 5.8安装问题
mysql Client does not support authentication protocol requested by server; consider upgrading MySQL只安装MySQL sever 用navicat 连接解决方法:管理员后台(root),输入密码use mysql;ALTER USER 'root'@'localhost' IDEN...
2018-09-26 10:19:04 655
转载 Scala跳出循环的三种方法
Scala跳出循环的三种方法 1、基于boolean类型的控制变量while循环:var flag = truevar res = 0var n = 0while(flag) { res += n n += 1 if (n == 5) { flag = false }}for循环:(高级for循环,加上了if守卫)var flag = true...
2018-09-04 15:34:02 1878
原创 Kafka producer
val props = new Properties()props.put("metadata.broker.list", Conf.Brokers) // broker 如果有多个,中间使用逗号分隔props.put("serializer.class", "kafka.serializer.StringEncoder")props.put("request.required.acks",...
2018-07-05 14:32:43 173
原创 Checkpoint java.lang.NullPointerException异常
aDStream.cache()aDStream.foreachRDD{rdd=>rdd.checkpoint()}aDStream.foreachRDD{rdd=>outprint}有时会报错:输出时取aDStream时,如果rdd=null就会报错解决方法,加判断
2018-06-12 19:32:14 598
原创 spark jdbc 序列化
jdbc prep是一个PrepareStatement对象,这个对象无法序列化,而传入map中的对象是需要分布式传送到各个节点上,传送前先序列化,到达相应机器上后再反序列化,PrepareStatement是个Java类,如果一个java类想(反)序列化,必须实现Serialize接口,PrepareStatement并没有实现这个接口,对象prep在driver端,collect后的数据也在d...
2018-06-12 11:31:00 711
原创 scala Map
Map结构是一种非常常见的结构,在各种程序语言都有对应的api,由于Spark的底层语言是Scala,所以有必要来了解下Scala中的Map使用方法。(1)不可变Map特点:api不太丰富如果是var修饰,引用可变,支持读写如果是val修饰,引用不可变,只能写入一次值,其后只读var a:Map[String,Int]=Map("k1"->1,"k2"->2)//初始化构造函数 ...
2018-06-12 10:34:48 182
原创 Scala的foldLeft和foldRight和/:和:\
代码:结果:/:是foldLeft的缩写,:\是foldRight的缩写a/:b 结果得是b
2018-06-05 10:11:22 2072
转载 Spark的RDD操作之Join大全!
Spark的RDD操作之Join大全!一、RDD的Join操作有哪些?(一)Join:Join类似于SQL的inner join操作,返回结果是前面和后面集合中配对成功的,过滤掉关联不上的。源代码如下:[plain] view plain copy/** * Return an RDD containing all pairs of elements with matching keys in...
2018-05-15 17:28:28 6975
原创 Scala implicit 隐式详解
implicit的作用,有2点: 第一个扩展其他类,增加方法;class A (val data:Int){ ...}此时我们希望扩展该类的功能,增加类A的数据显示功能implicit class B(a:A) { def show { println(a.data) }}此时我们扩展了类A功能,可以如下使用。val...
2018-05-14 10:04:23 492
转载 hive
一、关系运算:1. 等值比较: = 语法:A=B 操作类型:所有基本类型 描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: hive>select 1 from lxw_dual where 1=1; 12. 不等值比较: <> 语法: A &l...
2018-05-09 15:43:22 249
转载 scala正则表达式基础
--------------------------目录--------------------------1、正则表达式阐述2、scala正则表达式基础---------------------------------------------------------1、正则表达式阐述正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串...
2018-05-09 10:23:25 516
转载 Spark核心RDD:combineByKey函数详解
为什么单独讲解combineByKey?因为combineByKey是Spark中一个比较核心的高级函数,其他一些高阶键值对函数底层都是用它实现的。诸如 groupByKey,reduceByKey等等如下给出combineByKey的定义,其他的细节暂时忽略(1.6.0版的函数名更新为combineByKeyWithClassTag)[java] view plain copydef combi...
2018-05-08 11:45:53 157
转载 HDFS 基础命令
前言HDFS命令基本格式:hadoop fs -cmd < args >ls 命令hadoop fs -ls /12列出hdfs文件系统根目录下的目录和文件hadoop fs -ls -R /12列出hdfs文件系统所有的目录和文件put 命令hadoop fs -put < local file > < hdfs file >12hdfs file的父...
2018-04-28 15:40:30 154
转载 python print格式化输出
python print格式化输出。1. 打印字符串print ("His name is %s"%("Aviad"))效果:2.打印整数print ("He is %d years old"%(25))效果:3.打印浮点数print ("His height is %f m"%(1.83))效果:4.打印浮点数(指定保留小数点位数)print ("His height is %.2f m"%(1...
2018-04-28 15:38:21 746
转载 IntelliJ IDEA与Maven 构建 Scala 项目
转载:https://blog.csdn.net/u011513853/article/details/52896230参考https://github.com/judasn/IntelliJ-IDEA-Tutorial(非常好的IntelliJ IDEA教程)https://www.cnblogs.com/hanyinglong/p/5030907.html(打包)...
2018-04-25 10:21:18 225
原创 Oracle 用户(user)和模式(schema)的区别
(一)什么Oracle叫用户(user): A user is a name defined in the database that can connect to and access objects.大意:Oracle用户是用连接数据库和访问数据库对象的。(用户是用来连接数据库访问数据库)。(二)什么叫模式(schema): A schema is
2018-01-09 13:23:30 1351
pdf文件生成加密,设置只读属性,添加水印的必要最新jar包6个包
2016-11-25
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人