自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(115)
  • 资源 (11)
  • 论坛 (1)
  • 问答 (1)
  • 收藏
  • 关注

原创 Redash -- Redash部署安装docker版

向导官网1.环境准备1.1 安装docker和docker-compose1.2 安装nodejs和npm2.安装Redash官网主页Developer Guidegithub讨论issues1.环境准备官网Docker Based Developer Installation Guide1.1 安装docker和docker-composeDocker – yum安装docker和docker-compose1.2 安装nodejs和npmnodejs/githubNode

2021-01-04 22:25:44 45

原创 Docker -- yum安装docker和docker-compose

向导1 环境介绍2 安装Docker3.安装docker-compose1 环境介绍  首先, Docker 并不是容器,它是一个管理容器的引擎。采用Linux 版本是 CentOS 7,Docker 也更推荐在 Linux 环境下使用;Docker 支持 CentOS 6 及以后的版本,并且要求CentOS 系统的内核版本要高于 3.10,我们可以通过uname -r命令查看验证。  Docker版本分为Docker CE 和 Docker EE。Docker CE 即社区免费版,可永久免费使用;

2021-01-04 22:14:57 29

原创 Clickhouse -- SpringBoot集成ck和代码控制负载均衡

向导简介1.pom2.配置文件3.Datasource配置4.负载均衡代码5.使用BalancedClickhouseDataSource做负载均衡简介  我自己搭建的ck是两节点的,两分片一备份。写入数据是生成随机数取余机器数来随机分配机器写入本地表的,然后建的分布式表供查询,外加一个web服务集成springboot、提供对外服务。ck查询的负载均衡没有使用chproxy和nginx,因为我们项目比较简单,就没弄额外的组件了,直接在代码中控制了,下面是集成步骤。1.pom<depende

2021-01-04 21:31:38 57

原创 Clickhouse -- 基础和入门三

向导1.支持的常见数据类型1.Int2.float: 浮点数3.布尔值4.字符串5.UUID:通用唯一标识符6.Date:日期7.Datetime:时间戳8.Enum:枚举9.Nullable:可为空/缺失值10.Array(T):数组11.Tuple(T1,T2,...):元组12.Nested(Name1 Type1, Name2 Type2, ...):嵌套2.表操作3.列操作1.支持的常见数据类型查看官方文档:https://clickhouse.tech/docs/en/sql-refere

2021-01-04 21:05:51 34

原创 Clickhouse -- 基础和入门二

向导1.表引擎1.Log系列2.Integration系列3.Special系列4.MergeTree系列2.常用的时间函数1.表引擎  ClickHouse提供了大量的数据引擎,分为数据库引擎、表引擎,根据数据特点及使用场景选择合适的引擎至关重要  表引擎在ClickHouse中的作用十分关键,直接决定了数据如何存储和读取、是否支持并发读写、是否支持index、支持的query种类、是否支持主备复制等。  ClickHouse提供了大约28种表引擎,各有各的用途,比如有Lo系列用来做小表数据分析,

2021-01-04 16:48:55 32

原创 Clickhouse -- 基础和入门一

向导1.安装部署2.建库建表和导入导出3.权限设置4.登录1.安装部署  Clickhouse – 安装部署和测试2.建库建表和导入导出建库CREATE DATABASE [IF NOT EXISTS] db_name [ON CLUSTER cluster] [ENGINE = engine(...)]CREATE DATABASE testdb; //创建数据库DROP DATABASE testdb; //删除数据库建表CREATE TABLE [IF NOT

2021-01-04 16:35:00 48

原创 HUE -- 安装部署和测试

向导1. 安装前的准备2. 安装3. 修改配置4. 启动5. 集成5.1 元数据信息集成mysql5.2 集成mysql数据源5.3 集成hive5.4 集成clickhouse5.5 集成druid1. 安装前的准备安装依赖yum install asciidoc cyrus-sasl-devel cyrus-sasl-gssapi cyrus-sasl-plain gcc gcc-c++ \krb5-devel libffi-devel libtidy libxml2-devel libxs

2020-12-16 14:23:38 99

原创 Clickhouse -- 安装部署和测试

向导安装前的准备安装单机模式集群模式启动使用client连接server测试结果安装前的准备CentOS取消打开文件数限制#在/etc/security/limits.conf、/etc/security/limits.d/90-nproc.conf这2个文件的末尾加入一下内容:* soft nofile 65536 * hard nofile 65536 * soft nproc 131072 * hard nproc 131072CentOS取消SELINUX,修改/etc/se

2020-12-15 16:39:26 62

原创 Java -- Java发送邮件示例代码(含附件)

向导引入依赖样例代码引入依赖<dependencies> <dependency> <groupId>javax.mail</groupId> <artifactId>mail</artifactId> <version>1.4.7</version> </dependency> <dependency> &lt

2020-08-14 22:21:22 102

原创 Hive -- Hive2.3.0集成Tez

向导安装依赖1. 安装hadoop2. 安装hive安装Tez集成Tez问题2.6 GB of 2.1 GB virtual memory used. Killing container.安装依赖1. 安装hadoopHadoop的分布式搭建Hadoop的高可用HA搭建2. 安装hiveHive – Hive2.3.0的部署安装安装Tez下载tez的依赖包:http://tez.apache.org解压修改名称tar -zxvf apache-tez-0.9.1-bin.tar.gz

2020-08-13 23:11:24 118

原创 Spark -- 直接读写Excel文件

  参考GitHub:https://github.com/crealytics/spark-excel  我使用了0.13.1版本的,此版本在读Excel时,必须指定文件,不能指定目录,否则报错。<dependency> <groupId>com.crealytics</groupId> <artifactId>spark-excel_2.11</artifactId> <version>0.13.1&lt

2020-08-10 13:35:58 758

原创 Spark -- cache和unpersist的正确用法

向导背景原理例子失败案例成功案例背景  cache和unpersist没有使用好,跟根本没用没啥区别,例如下面的例子,有可能很多人这样用:val rdd1 = ... // 读取hdfs数据,加载成RDDrdd1.cacheval rdd2 = rdd1.map(...)val rdd3 = rdd1.filter(...)rdd1.unpersistrdd2.take(10).foreach(println)rdd3.take(10).foreach(println)  上面代

2020-08-06 22:19:45 816 3

原创 Druid -- 定时增量导入HDFS数据到Druid

向导Druid集成HDFS编写Spec.json编写替换时间Shell定时提交任务到DruidDruid集成HDFS编写Spec.json编写替换时间Shell定时提交任务到Druid

2020-08-03 15:34:00 97

原创 Druid -- Superset0.35.2集成Druid0.19.0

向导介绍使用1. 连接druid cluster2. 加载Druid的DataSource3. 点击指定datasource进行数据分析和图表展示4. 选择好维度、条件、展示形式,Run Query5. 保存图表到dashboard介绍  superset安装部署参考:Superset – Superset介绍及0.35.2安装部署  druid安装部署参考:Druid – 基于Imply方式集群部署使用  superset深度集成druid,superset安装完成后,即可在页面中的source

2020-07-30 22:37:03 75

原创 Superset -- Superset介绍及0.35.2安装部署

向导介绍官网概述应用场景安装部署python环境准备安装Miniconda或anaconda创建Python3.6环境Superset部署安装依赖更新安装pip和setuptools安装superset启动superset页面查看集成介绍官网  http://superset.apache.org/gallery.html概述  Apache Superset是一个开源的、现代的、轻量级BI分析工具,能够对接多种数据源、拥有丰富的图标展示形式、支持自定义仪表盘,且拥有友好的用户界面,十分易用。应

2020-07-30 22:10:50 93

原创 Spark -- 一次Task长时间卡住不动,一直Running的问题解决

向导现象排查现象  spark提交任务后,某一个Stage卡住,通过spark界面看到,executor运行正常,卡住的Stage的task已经分配至executor,但task 一直在running并且数据量不大,task不结束,同时log中也无异常报出。20/07/27 07:40:13 INFO CoarseGrainedExecutorBackend: Started daemon with process name: 15841@ip-10-3-1-141.ec2.internal20

2020-07-28 21:45:22 1163

原创 Hive -- Hive2.3.0的部署安装

向导1. 上传tar包,解压2. 安装hadoop3. 安装mysql4. 配置hive-site.xml5. 拷贝mysql驱动7. 启动hdfs,yarn8. 启动hive metastore,hiveserver2,hive1. 上传tar包,解压tar -zxvf apache-hive-2.3.6-bin.tar.gz -C /opt/module/2. 安装hadoopHadoop的分布式搭建Hadoop的高可用HA搭建3. 安装mysqlMySQL的安装(YUM安装)MySQ

2020-07-26 22:08:33 81

原创 HBase -- 集群部署安装

向导环境准备安装环境准备  安装HBase需要:Jdk、Hadoop Cluster、Zookeeper Cluster,详情参考:Hadoop的分布式搭建,Hadoop的高可用HA搭建安装上传并解压:tar -zxvf hbase-1.3.1-bin.tar.gz -C /opt/module修改hadoop-env.sh配置文件:export JAVA_HOME=/opt/module/jdk1.8.0_181export HBASE_MANAGES_ZK=false修改

2020-07-26 21:52:38 49

原创 Druid -- 基于Imply方式集群部署

向导集群部署1. 下载tar包,上传服务器,解压2. 修改配置文件common.runtime.properties3. 修改coordinator配置,vi overlord/runtime.properties4. 修改overlord配置,vi coordinator/runtime.properties5. 修改middleManager配置文件,vi middleManager/runtime.properties6. 修改historical配置文件,vi historical/runtime.

2020-07-26 18:09:00 285

原创 Druid -- Druid介绍及基于Imply方式单机部署

向导介绍特点应用场景和其他技术对比原理架构和组件数据结构(Datasource + Segment)部署官网单机部署集群部署介绍  Druid是一个快速的列式分布式的支持实时分析的数据存储系统。它在处理PB级数据、毫秒级查询、数据实时处理方面,比传统的OLAP系统有了显著的性能改进。  注意:阿里巴巴也曾创建过一个开源项目叫作Druid(简称阿里Druid),它是一个数据库连接池的项目。阿里Druid和本文讨论的Druid没有任何关系,它们解决完全不同的问题。特点列式存储:Druid面向列存储,

2020-07-26 18:06:14 177

原创 Spark -- DataFrame按指定分隔符读取和写入文件

向导按指定分隔符读取文件jsonparquetjdbccsvtext自定义分隔符按指定分隔符写入文件jsonparquetjdbccsvtext自定义分隔符按指定分隔符读取文件  SparkSession读取时可以指定format,format支持:json, parquet, jdbc, orc, libsvm, csv, text这几种格式。jsonspark.read.json(inputFile1)//或者spark.read.format("json").load(inputFile1

2020-07-22 20:24:33 2349

原创 Kafka -- 集群部署安装

向导环境准备安装验证环境准备  安装Kafka需要:Jdk、Hadoop Cluster、Zookeeper Cluster,详情参考:Hadoop的分布式搭建,Hadoop的高可用HA搭建安装上传并解压:tar -zxvf kafka_2.11-0.11.0.0.tgz -C /opt/module/#改名mv kafka_2.11-0.11.0.0/ kafka#创建log日志路径cd kafkamkdir logs修改配置文件:#编辑配置文件cd config/v

2020-07-21 17:21:14 46

原创 Linux -- OutOfMemoryError: unable to create new native thread

向导  在一次执行kafka操作时报错:OutOfMemoryError: unable to create new native thread。  看了下内存是足够的,应该是Linux系统的线程数限制。  修改Linux配置:echo "100000" > /proc/sys/kernel/threads-maxecho "100000" > /proc/sys/kernel/pid_max (默认32768)echo "200000" > /proc/sys/vm/ma

2020-07-21 16:57:37 61

原创 Spark -- 优化配置

向导重复上传Jar包问题开启推测执行重复上传Jar包问题  提交任务时,提示 WARN Client: Neither spark.yarn.jars nor spark.yarn.archive is set, falling back to uploading libraries under SPARK_HOME.  解决:上传spark环境的jar包到hdfs hdfs dfs -mkdir /spark/jars hdfs dfs -put /opt/module/spark-2.

2020-07-17 10:18:16 64

原创 Spark -- 配置HistoryServer并通过Yarn跳转

向导配置yarn-site.xml配置spark-defaults.conf配置spark-env.sh测试配置yarn-site.xml  修改yarn-site.xml,增加如下配置,并分发重启yarn<!-- 日志聚集功能使能 --><property> <name>yarn.log-aggregation-enable</name> <value>true</value></property&gt

2020-07-16 23:15:53 125

原创 Spark -- RDD写入HBase示例

向导POM示例说明POM<properties> <scala.version>2.11</scala.version> <spark.version>2.2.0</spark.version> <scope>complie</scope><!-- <scope>provided</scope>--> </p

2020-07-15 17:02:47 207

原创 任务调度 -- DAG 并行执行调度

向导

2020-06-21 21:07:25 932

原创 Azkaban -- Azkaban的安装和使用

向导Azkaban介绍特性安装下载编译安装验证使用使用说明单任务多任务定时调度调度Java、MapReduce、Hive、Spark等二次开发官方API开源的包装好的APIAzkaban介绍  Azkaban是在LinkedIn上创建的用于运行Hadoop作业的批处理工作流作业调度程序。Azkaban通过工作依赖性解决订购问题,并提供易于使用的Web用户界面来维护和跟踪您的工作流程。  Azkaban的设计首先考虑了可用性。它已经在LinkedIn上运行了几年,并驱动了许多Hadoop和数据仓库流程。

2020-06-10 10:03:58 309

原创 Gradle -- 安装Gradle并集成到IDEA

向导Gradle介绍下载安装步骤1.解压zip包2.配置环境变量3.验证安装4.修改仓库默认地址5.优化编译速度配置6.修改镜像地址集成到IDEAGradle介绍  Gradle是一个基于Apache Ant和Apache Maven概念的项目自动化构建开源工具。它使用一种基于Groovy的特定领域语言(DSL)来声明项目设置,目前也增加了基于Kotlin语言的kotlin-based DSL,抛弃了基于XML的各种繁琐配置。  官网地址:https://gradle.org/下载  下载地址:h

2020-06-10 09:49:50 483

原创 代码混淆 -- SpringBoot集成Allatori对源代码混淆,防反编译获取源码

向导Allatori介绍使用结果注意的点Allatori介绍Allatori是第二代Java混淆器,可为您的知识产权提供全方位的保护。尽管大多数第二代混淆器都提供了值得保护的级别,但我们已经在Allatori中开发了许多附加功能,以使对代码进行逆向工程几乎不可能。Allatori不仅会混淆,还会最大程度地减少应用程序的大小并提高速度,同时您和您的团队以外的任何人都无法读取您的代码。作为每个现代Java混淆器,Allatori具有完整的水印功能,从而有可能为您的软件提供适当的许可!如果有

2020-06-03 14:58:06 347

原创 Java -- 常见的查找算法及Java实现

向导1. 顺序查找,SequenceSearch2. 二分查找,BinarySearch1. 顺序查找,SequenceSearch算法思想:  顺序查找也称为线形查找,属于无序查找算法。从数据结构线形表的一端开始,顺序扫描,依次将扫描到的结点关键字与给定值k相比较,若相等则表示查找成功;若扫描结束仍没有找到关键字等于k的结点,表示查找失败。。代码实现:public class SequenceSearch { public static void main(String[] args)

2020-05-29 11:21:00 153

原创 Java -- 常见的排序算法及Java实现

向导快速排序,QuickSort快速排序,QuickSort算法思想:先从数列中取出一个数作为基准数。分区过程,将比这个数大的数全放到它的右边,小于或等于它的数全放到它的左边。再对左右区间重复第二步,直到各区间只有一个数。代码实现:import java.util.Arrays;public class QuickSort { public static void main(String[] args) { int[] dataArr = {3,2,5,4,1,

2020-05-14 16:59:00 133

原创 Hive -- Hive面试题及答案(4)

向导1.需求描述解答2.需求描述解答2.需求描述解答1.需求描述解答# 通过group by 去重create table distinct_dayno_uid as select dayno, uid from act_user_info group by dayno, uid;//求周留存select dayno, resCnt, resCnt1, resCnt3, resCnt7, concat(round(resCnt1/resCnt, 2), '%') resRate1,

2020-05-12 15:59:10 408

原创 Hive -- Hive面试题及答案(2)

向导数据结构视频表用户表需求描述解答1. 统计视频观看数Top102. 统计视频类别热度Top103. 统计出视频观看数最高的20个视频的所属类别以及类别包含Top20视频的个数4. 统计视频观看数Top50所关联视频的所属类别排序5. 统计每个类别中的视频热度,视频流量,观看数Top106. 统计上传视频最多的用户Top10以及他们上传的观看次数在前20的视频数据结构视频表用户表需求...

2020-05-04 14:30:06 369

原创 Hive -- Hive优化

向导Fetch抓取本地模式表的优化小表、大表Join大表Join大表MapJoin(小表join大表)Group ByCount(Distinct) 去重统计笛卡尔积行列过滤动态分区调整合理设置Map及Reduce数复杂文件增加Map数小文件进行合并合理设置Reduce数并行执行严格模式JVM重用推测执行推测执行Fetch抓取  Fetch抓取是指,Hive中对某些情况的查询可以不必使用Map...

2020-05-04 10:19:10 101

原创 Hive -- Hive面试题及答案(3)

向导小打卡面试题题目一:计算小打卡平台的圈主建了多少圈子,名下有多少用户题目二:处理产品版本号题目三、计算平台用户留存小打卡面试题题目一:计算小打卡平台的圈主建了多少圈子,名下有多少用户已知,数据如下:tb_habit圈子表:数百万行数据user_habit_relation用户与圈子关系表:亿行数据需求:请用hive sql计算出如下结果(同一个圈主名下,同一个用户加多个圈子只计...

2020-05-01 15:12:56 840 8

原创 Hive -- Hive基础

向导Hive架构原理数据类型基本数据类型集合数据类型排序全局排序(Order By)分区内部排序(Sort By)分区(Distribute By)Cluster By常用函数NVL: 为NULL的数据赋值时间函数CASE WHEN, if行转列collect_set, concat_ws列转行 explodeHive架构原理用户接口:ClientCLI(command-line int...

2020-05-01 11:24:55 124

原创 Hive -- Hive1.2.1的部署安装

上传tar包,解压tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /opt/module/安装hadoopHadoop的分布式搭建Hadoop的高可用HA搭建安装mysqlMySQL的安装(YUM安装)MySQL的安装(tar.gz文件安装)MySQL的安装(RPM文件安装)配置hive-env.shmv apache-hive-1...

2020-05-01 10:45:57 119

原创 Hive -- Hive面试题及答案(1)

小打卡面试题题目一:计算小打卡平台的圈主建了多少圈子,名下有多少用户已知,数据如下:tb_habit圈子表:数百万行数据user_habit_relation用户与圈子关系表:亿行数据需求:请用hive sql计算出如下结果(同一个圈主名下,同一个用户加多个圈子只计算一次):答案:SELECT a.`uid`, nvl(COUNT(a.log_id), 0) AS log_cn...

2020-04-22 16:45:45 840 1

原创 并发编程 -- volatile、synchronized和lock

并发编程中的三个概念  并发编程中,我们通常会遇到以下三个问题:原子性问题,可见性问题,有序性问题。我们先看具体看一下这三个概念:原子性  即一个操作或者多个操作要么全部执行并且不会被任何因素打断,要么就都不执行。可见性  指多个线程访问同一变量时,一个线程修改了这个变量的值,其他线程能立即看到修改的值。有序性  即程序执行的顺序按照代码的先后顺序执行。  一般来说,处理器为了提...

2020-04-22 16:25:26 82

用户画像全面剖析,心血实战价值万金!47页PPT干货解密

本资源是ppt的pdf版本,包含47页,讲解还算详细,大致都讲到了,对了解用户画像是有很大帮助的。

2018-12-29

HeimaCodeUtil 代码生成器

非常好用的代码生成器,支持多种代码模板生成,包括前端页面。支持以下模板: 1.SSM+dubbox+angularJS(服务层+WEB层) 2.SSH2+easyUI架构; 3.SSH2+angularJS+bootstrap架构 4.SpringBoot+StringDataJPA微服务 的代码自动生成,还可以自定义模板结构 支持oracle+mysql多数据库。 绝对真实,4个模板。

2019-10-18

Spark MLlib 机器学习算法与源码解析

此课程主要介绍spark ml相关内容,共分10章,前2章主要介绍scala、spark原理,后面每章一个算法应用、算法原理和算法源码讲解,非常有帮助。

2019-01-07

企业级数据仓库与商业智能平台搭建全套视频教程附讲义

此视频是系统讲解数仓的理论和实战,以及BI平台的搭建和实践,对系统学习数仓和大数据处理有很大的帮助

2019-01-07

hadoop-bin winutils 2.6.4,x64版本

此版本是Hadoop-2.6.4的winutils工具,直接将bin中文件覆盖即可在win下使用hadoop,此版本是在64位系统编译,win10、8、7皆可以使用,欢迎下载。

2018-12-28

hadoop-bin winutils 3.0.0,x64版本

此版本是Hadoop-3.0.0的winutils工具,直接将bin中文件覆盖即可在win下使用hadoop,此版本是在64位系统编译,win10、8、7皆可以使用,欢迎下载

2018-12-28

hadoop-bin winutils 2.6.3,x64版本

此版本是Hadoop-2.6.3的winutils工具,直接将bin中文件覆盖即可在win下使用hadoop,此版本是在64位系统编译,win10、8、7皆可以使用,欢迎下载

2018-12-28

hadoop-bin winutils 2.6.0,x64版本

此版本是Hadoop-2.6.0的winutils工具,直接将bin中文件覆盖即可在win下使用hadoop,此版本是在64位系统编译,win10、8、7皆可以使用,欢迎下载。

2018-12-28

hadoop-bin winutils 2.8.3,x64

此版本是Hadoop-2.8.3的winutils工具,直接将bin中文件覆盖即可在win下使用hadoop,此版本是在64位系统编译,win10、8、7皆可以使用,欢迎下载。

2018-12-28

hadoop-bin winutils 2.8.1,x64

此版本是Hadoop-2.8.1的winutils工具,直接将bin中文件覆盖即可在win下使用hadoop,此版本是在64位系统编译,win10、8、7皆可以使用,欢迎下载。

2018-12-27

hadoop-bin winutils 2.7.1,x64

此版本是Hadoop-2.7.1的winutils工具,直接将bin中文件覆盖即可在win下使用hadoop,此版本是在64位系统编译,win10、8、7皆可以使用,欢迎下载。

2018-12-27

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除