- 博客(27)
- 收藏
- 关注
原创 Neo4j图数据库使用
Neo4j图数据库使用图论基础节点描述域的实体(离散对象)。节点可以有零个或多个标签来定义(分类)它们是哪种类型的节点。关系描述源节点和目标节点之间的连接。关系总是有一个方向(一个方向)。关系必须具有类型(一种类型)才能定义(分类)它们之间的关系类型。节点和关系可以具有属性(键值对),这些属性可以进一步描述它们。在数学中,图论是对图的研究。在图中:节点也称为顶点或点。关系也称为边、链接或线。如图,圆形为点,箭头线为边,点和边都有标签类型,表示同一种标签,如Person类型的
2022-01-18 16:52:56 2901
原创 spark-sql骚技巧-sql结果参数化
纯sql无代码,sql结果赋值给变量,实现参数化当我们在公司的开发平台上写些sql数据分析时,发现经常会遇到不同sql使用同一参数的情况,比如计算比率要计算总数,总数被多次使用,或者每次要传入where day=date_format(date_sub(current_date(), 1), ‘yyyyMMdd’)这样的日期条件,这时可不可以将总数参数化,这样只要算一次,可以提升效率和sql颜值呢?经过研究hive sql的参数化,总结出spark-sql的纯sql写法,下面是spark3.1.2环境
2021-09-14 10:55:18 2201
原创 apache kylin4.0安装与使用
apache kylin4.0安装与使用kylin4.0优势kylin4.0架构大调整,去除了Hbase,改用hdfs parquet文件作为底层数据存储层,无需指标rowkey编码计算及查询引擎统一,采用spark,支持spark3.1,所以cube计算查询效率比kylin3.0直接提升一倍,稳定性也高很多存储的cube计算数据占用空间比hbase少一倍简单查询跟3.x版本性能差不多,但对应复杂查询,性能成倍数提升(parquet及目录分区过滤)综上,随着kylin4.0稳定版本发布,没有不升
2021-09-11 19:14:33 3704 11
原创 pyspark3.1异常: Python worker failed to connect back
pyspark环境配置报错解决异常描述环境:win10, spark3.1.2版本,hadoop3.3.1,java1.8在pycharm或直接在pyspark shell环境中执行如下测试代码报错:pyspark3.1: Python worker failed to connect backfrom pyspark.sql import SparkSessionfrom pyspark.sql.types import StructType, StructField, LongType, S
2021-07-19 15:29:08 4936 4
原创 Flink-1.13.0 sql-client yarn-session模式部署
Flink-1.13.0 sql-client yarn-session模式部署当前flink:sql-client.sh是 flink下类似spark-sql的sql方式处理数据的操作接口,可以像操作普通有界数据表一样去操作无界数据流,支持流实时查询、join、事件时间、水印延迟、窗口等各种操作,不用写java/scala/python代码一样可以操作数据流,当前主sql引擎采用alibaba Blink sql实现,当前flink-1.13.0版本仍是bata版本,有的公司已经在使用,也是未来的一个趋
2021-05-31 15:19:10 2226
原创 Spark BulkLoad批量读写Hbase
Spark BulkLoad批量读写HbaseSpark读写Hbase,不要使用put逐条数据插入,效率太低了,要使用批量导入的方式!要分Hbase版本来做不同处理:Hbase 1.x版本依赖:<!-- spark2.x依赖省略 ---> <dependency> <groupId>org.apache.hbase</groupId> <artifactId>hbase-client<
2021-02-28 00:32:57 1574
原创 SQL分组统计-每个学科前三名
SQL分组统计经典问题统计每个组下TOP N的问题,例如统计每个学科前三名数据表sql(GreenPlum):create table tb_score(name varchar(20),subject varchar(20),score int)distributed by (subject);--数据插入表insert into tb_score(name,subject,score) values('john','math',80),('john','english',78),('
2021-02-27 23:20:04 3704 1
原创 Hbase数据迁移方案
Hbase数据迁移方案hbase的数据迁移有几种,要求新老集群间所有机器间网络通并配有路由表或dns,查资料发现以下几种方案:1.走hdfs数据远程拷贝直接用hadoop distcp远程拷贝迁移出hfiles(先将原表disable下线,flush确保memostore持久化),再在新hbase集群创建相同表,通过LoadIncrementalHFiles工具载入hfile到这个新表低层原理是利用hadoop mapreduce 将Hfiles文件作为输入并行拷贝到新hdfs集群2.Hbase
2021-02-27 23:12:49 1637
原创 VS Code下的Spark(Scala)开发
VS Code下的Spark(Scala)开发IntelliJ IDEA下开发Scala应用很智能,体验很好,但正版费用极高,为了避免版权收费问题,考虑使用开源免费的IDE,比如Eclipse,VS Code,而且VS Code小而美、功能全、执行快、跨平台,所以使用VS Code安装Java JDK 8很简单,不做啰嗦安装Scala官网下载Scala 2.12或2.11,Spark 3.0使用Scala2.12,,Spark3.0之前使用Scala2.11下载安装msi安装包,傻瓜式安装,环境
2020-12-24 16:42:05 7995 3
原创 Scala版时间转换工具 线程安全
原理利用底层java 提供的LocalDateTime实现,完全线程安全,而SimpleDataFormat线程不安全,慎用代码package com.sinovatio.spark.utilsimport java.time.{Instant, LocalDateTime, ZoneOffset}import java.time.format.DateTimeFormatterimport java.time.temporal.ChronoUnit/** * @author : l
2020-06-20 00:12:31 283
原创 MIT kerberos认证集群搭建
MIT kerberos认证集群搭建认证原理可以看这个博客,很详细: https://blog.csdn.net/sky_jiangcheng/article/details/81070240环境搭建运行环境ubuntu18.04 serverkdc: hp01client: hp02、hp03安装软件安装NTP时间同步服务hp01安装kdc ,admin-serversudo apt-get install krb5-kdc krb5-admin-server
2020-06-12 23:29:34 559
原创 Hadoop学习与使用
Hadoop基础1. 大数据解决方案 Hadoop是一个开源框架,它允许在整个集群使用简单编程模型计算机的分布式环境存储并处理大数据。它的目的是从单一的服务器到上千台机器的扩展,每一个台机都可以提供本地计算和存储。“90%的世界数据在过去的几年中产生”。由于新技术,设备和类似的社交网站通信装置的出现,人类产生的数据量每年都在迅速增长。美国从一开始的时候到2003年产生的数据量为5十亿千兆字节。如果以堆放的数据磁盘的形式,它可以填补整个足球场。在2011年创建相同数据量只需要两天,在2013年该速
2020-06-12 23:21:51 1211
原创 Spark高阶编程-如何编写高效代码
Spark高阶编程1.Spark源码解析 以下以yarn-client提交sparkPI任务流程为例 执行${SPARK_HOME}/bin/spark-submit 提交任务命令spark-submit --master yarn --deploy-mode client --executor-cores 1 --num-executors 1 --class org.apache.spark.examples.SparkPi ${SPARK_HOME}/examples/jars/s
2020-06-12 22:44:19 824
原创 spark读hive没有权限异常Permission denied
sparkSQL读取hive库或表时提示没有权限异常spark@h1:~$ spark-shell 20/03/08 13:29:35 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicableSetti...
2020-03-08 21:53:58 2570
原创 docker registry私有镜像仓库配置
docker registry私有镜像仓库配置运行docker registrydocker run -d -v /opt/docker/registry:/var/lib/registry \-p 5000:5000 \--restart=always \--name xdp-registry registry查看仓库所有镜像:root@k8s-12:/etc/system...
2020-01-03 16:49:13 175
原创 Dao Cloud Docker镜像加速配置
Dao Cloud Docker镜像加速配置1.注册dao cloud账户https://www.daocloud.io/2.选择右上角加速器,进入加速器配置linux版:curl -sSL https://get.daocloud.io/daotools/set_mirror.sh | sh -s http://f1361db2.m.daocloud.io...
2020-01-03 16:45:08 469
原创 docker镜像打包工具docker-maven-plugin使用
docker-maven-plugin使用配置:1. spring boot 项目添加该插件 <!-- 添加docker-maven-plugin插件 --> <plugin> <groupId>com.spotify</groupId> <arti...
2020-01-03 16:42:49 714
原创 Ubuntu18.04系统基础配置
静态IP配置sudo vim /etc/netplan/50-cloud-init.yamlnetwork: ethernets: ens33: dhcp4: false addresses: [192.168.1.21/24] gateway4: 192.168.1.2 n...
2020-01-02 16:15:40 911
原创 Spark任务提交与SpringBoot项目集成
Spark任务提交与SpringBoot项目集成原理利用官方提供的SparkLauncher java接口来使用java代码提交Spark任务到Spark集群实现一个SparkPI 的计算demo,并打包成jar新建SpringBoot项目,项目加入spark-core依赖,否则无法找到SparkLuncher <properties> <j...
2020-01-02 16:10:51 2578
原创 Spark Dataset操作异常
Spark Dataset操作Set集合异常问题java.lang.UnsupportedOperationException: No Encoder found for scala.collection.immutable.Set[String]说明在使用Spark Dataset时发生,源码: import ss.implicits._ val points = 1000...
2019-12-03 19:40:51 557
原创 Scala语言基础理论与实践
给部门内部做的培训Scala简介 是什么? Scala combines object-oriented and functional programming in one concise, high-level language. Scala's static types help avoid bugs in complex applications, and its JV...
2019-09-12 14:39:01 172
原创 Hadoop集群配置部署
一、硬件需求 三台虚拟机:ubuntu01 ubuntu02 ubuntu03 vmware workstation 15上创建上面三台ubuntu server 18.04虚拟机二、配置Spark账户互信,免密登陆 1.rsa公钥加密密钥生成 ssh-keygen -t rsa ...
2019-09-12 13:56:28 161
原创 Flink 集群配置部署
部署模式一:standalone模式:规划:185-187三台centos7主机,185作为JobManager,186和187作为TastManager1.下载flink-1.7.1-bin-scala_2.12.tgz,不要下带hadoop依赖库版本。2.解压3.配置flink-1.7.1/conf/flink-conf.yaml,配置说明:##########...
2019-09-12 11:42:30 917
原创 Apache Flink学习
Apache Flink 学习笔记:1.从apache flink官网开始学习flink,一个新的分布式实时流、批处理计算框架。像spark一样同时支持大数据批处理与近实时流处理。而storm仅支持近实时流处理,且吞吐量不如sparkstreaming.flink要比storm在实时流处理上有更好的性能,具有更低的延迟,更高的吞吐量,有状态的操作等。所以阿里巴巴选择的是flink,并...
2019-09-12 11:38:19 152
原创 Apache Flume
简单说下个人理解:Flume是个用于收集消息或日志,将多个数据来源收集到的数据聚合存储到其他系统中,现实中可用于数据入库,将不同的数据源Flume数据收集而后经过ETL数据清洗转换,结果推送到消息系统如kafka,再经Flume二次管道进行数据入库,可并行同时入库到不同的存储系统中,如HBase,ElasticSearch等等Flume 的核心架构就是Agent,一个Agent代表一个数据...
2019-09-12 11:35:21 300
原创 Spark GraphX 图计算
源码:https://github.com/NickyWooden/graphx-demo.git给部门内部做的培训1.图论基础点 边 有向图、无向图 度(入度、出度) 环 DAG 联通图 子图2.属性图定义属性图是一个有向多图,每个顶点和边都有用户定义的对象(属性)Vertex(VertexId,顶点属性)Edge(srcVertexId,de...
2019-09-12 10:01:51 1165
原创 kafka streams学习
项目源码:https://github.com/NickyWooden/kafka-streams-demo.gitKafka streams是kafka提供的用于实时流计算的类库,支持各种窗口操作、支持事件时间、支持水印、多个流join操作、状态及容错,可与kafka或其他消息系统结合使用,用于将订阅kafka topic数据实时处理后结果推回kafka或其他消息系统相比于其他实时流处理...
2019-09-11 17:25:57 183
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人