稳哥的哥
码龄5年
关注
提问 私信
  • 博客:344,870
    344,870
    总访问量
  • 301
    原创
  • 1,760,149
    排名
  • 379
    粉丝
  • 1
    铁粉

个人简介:babe babe babe wowowowowowoow~! 寒江孤影、江湖故人

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:湖南省
  • 目前就职: 平安科技(深圳)有限公司
  • 加入CSDN时间: 2019-09-13
博客简介:

shufangreal的博客

查看详细资料
个人成就
  • 获得132次点赞
  • 内容获得82次评论
  • 获得640次收藏
  • 代码片获得776次分享
创作历程
  • 2篇
    2022年
  • 64篇
    2021年
  • 203篇
    2020年
  • 35篇
    2019年
成就勋章
TA的专栏
  • 快捷键快乐办公和homebrew
    7篇
  • Git
    1篇
  • Flume
    3篇
  • Docker
    1篇
  • SparkStreaming
    9篇
  • SparkCore
    6篇
  • SparkSQL
    6篇
  • Java设计模式
    9篇
  • Zookeeper
    1篇
  • mybatis
    10篇
  • 数据结构
    2篇
  • Kafka
    16篇
  • Springboot
    11篇
  • 机器学习
    1篇
  • Linux
    17篇
  • MySQL
    6篇
  • Maven
    1篇
  • PAAS
    1篇
  • scala
    25篇
  • python
    12篇
  • 图数据库
    1篇
  • 计算机网络
    1篇
  • 系统中台
    1篇
  • Sqoop
    2篇
  • Flink
    35篇
  • Hadoop
    11篇
  • Java
    8篇
  • Spark
    19篇
  • Hive
    24篇
  • 数据治理解决方案
    2篇
  • Hbase
    26篇
  • Shell
    6篇
  • GreenPlum
    7篇
  • ClickHouse
    5篇
  • ELK
    1篇
  • BI可视化工具
    4篇
  • Kubernetes
    1篇
  • Windows
    1篇
兴趣领域 设置
  • 大数据
    hadoophivespark
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

快照表转换成拉链表的方式(hive)初始化拉链&增量更新拉链

hive拉链表
原创
发布博客 2022.08.20 ·
1570 阅读 ·
3 点赞 ·
1 评论 ·
11 收藏

浅谈数据治理(什么是数据治理)

数据治理概念
转载
发布博客 2022.07.15 ·
18911 阅读 ·
13 点赞 ·
2 评论 ·
104 收藏

CentOS7-之Superset安装

CentOS7-之Superset安装1 准备工作,安装python环境在不破坏linux原先的python2.7的情况下安装python3.71.1 安装miniconda下载地址:https://docs.conda.io/en/latest/miniconda.html选择Miniconda3 Linux 64-bit这是一个开源的python的版本管理工具,与anaconda差不大,只是该工具中的包要少一些。bash Miniconda3-latest-Linux-x86_64.sh
原创
发布博客 2021.09.25 ·
1038 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

SPARK-SQL-之UDF、UDAF

SPARK-SQL-之UDF、UDAF1、UDF使用// 注册函数 spark.udf.register("prefix1", (name: String) => { "Name:" + name})// 使用函数spark.sql("select *,prefix1(name) from users").show()2、UDAF使用2.1 弱类型// 1 定义UDAF(弱类型、3.0.0之前得版本可以使用,没标记过时)package com.shufang.rdd
原创
发布博客 2021.08.25 ·
368 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark-之自定义wordCount累加器

Spark-之自定义wordCount累加器SparkCore中的3种数据类型:累加器(只写)RDD广播变量(只读)累加器在多个action算子触发的job中重复累加,且需要action算子才能触发累加器操作。package com.shufang.accimport com.shufang.utils.ScUtilimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport org.apache
原创
发布博客 2021.08.24 ·
230 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark-之数据持久化(血缘关系cache\persist\checkpoint)

Spark-之数据持久化(血缘关系 cache\persist\checkpoint)cachepersistcheckpointcache、persist默认都是调用persist(StorageLevel.MEMORY_ONLY)。1、cache & persist由于RDD本身是不存储数据的,它只是一个抽象。多个RDD之间可能存在依赖,这种现象被称为RDD的血缘关系,RDD的血缘关系在job触发的时候形成DAG。1、如果没有将RDD进行持久化。如果一个RDD同时触发2
原创
发布博客 2021.08.24 ·
784 阅读 ·
1 点赞 ·
1 评论 ·
2 收藏

Spark-之不同的wordCount

Spark-之不同的wordCountpackage com.shufang.wcimport com.shufang.utils.ScUtilimport org.apache.spark.SparkContextimport org.apache.spark.rdd.RDDimport scala.collection.mutableobject WordCountDemo001 { def main(args: Array[String]): Unit = { val s
原创
发布博客 2021.08.23 ·
128 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark-之聚合算子的关系与区别

Spark-之聚合算子的关系与区别reduceByKeyaggregateByKeyfoldByKeycombineByKey四种聚合方式都是在shuffle之前在分区内作预先聚合的操作,相对比groupByKey + map的方式,这些性能更加好,因为从map -> 磁盘 -> reduce这个过程中的mapstage的io减少了。这些函数的过程分为:​ 1、分区内聚合map端聚合​ 2、分区间的shuffle聚合下面通过4种不同的算子实现 wordcount操作!!#
原创
发布博客 2021.08.22 ·
440 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark- 之不同Source产生RDD的分区数与数据分配

Spark- 之不同Source产生RDD的分区数与数据分配通常Spark的数据源可以分为很多中,这里主要是从源码剖析内存集合与文件分区数的确定与数据分配。1 集合RDD的分区与数据分配具体看以下代码及注释。package com.shufang.parallel_yuanliimport com.shufang.utils.ScUtilimport org.apache.spark.{SparkConf, SparkContext}import org.apache.spark.rdd.R
原创
发布博客 2021.08.22 ·
202 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

FlinkSQL-Join打宽案例

Flink Temporal Join Versioned Table DemoKeyword: [Temporal Join, Versioned Table, mysql-cdc]1. Flink standalone 环境准备(基于 Flink 1.12.2 版本)(a) 下载 flink 安装包Flink 安装包: https://mirrors.tuna.tsinghua.edu.cn/apache/flink/flink-1.12.2/flink-1.12.2-bin-scala
原创
发布博客 2021.08.20 ·
971 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Flink - 之Kafka Avro序列化格式转Json序列化格式(⭐⭐⭐)

Flink - 之Kafka Avro序列化格式转Json序列化格式(⭐⭐⭐)参考网址:apache avro官网1 背景TODO 后续补充,晚间12点了不想搞了~2 mvn依赖<!-- flink的avro format的依赖 --><dependency> <groupId>org.apache.flink</groupId> <artifactId>flink-avro</artifactId>
原创
发布博客 2021.08.04 ·
2474 阅读 ·
0 点赞 ·
0 评论 ·
4 收藏

Kafka - 之kafka为什么这么快(页缓存、零拷贝、顺序写磁盘)!

Kafka - 之kafka为什么这么快(页缓存、零拷贝、顺序写磁盘)!kafka为什么这么快,主要是得益于以下几点页缓存(读)零拷贝(读写)顺序写磁盘(写)用户应用与磁盘之间文件之间的读写可以大致分为以下几层分工############################### 用户层(服务端应用) 用户态缓存############################### 内核层(操作系统内核) 页缓存 socket缓存##############################
原创
发布博客 2021.07.19 ·
1717 阅读 ·
1 点赞 ·
3 评论 ·
10 收藏

Hbase - 之Phoenix-JDBC连接、命名空间映射

Hbase - 之Phoenix-JDBC连接、命名空间映射1、在客户端本地添加hbase-site.xml<configuration> <property> <name>hbase.zookeeper.quorum</name> <value>shufang101:2181,shufang102:2181,shufang103:2181</value> <description>外部zoo
原创
发布博客 2021.07.14 ·
695 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Java - 之常用工具包和类

Java - 之常用工具包1、apache commons-beanutils该maven工具包主要可用用来通过反射对对象进行初始化<dependency> <groupId>commons-beanutils</groupId> <artifactId>commons-beanutils</artifactId> <version>1.9.4</version></dependency
原创
发布博客 2021.07.14 ·
619 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Spark1.6.+ - 之内存管理Memory-Manage

Spark1.6.+ - 之内存管理1、前言在Spark1.6.+及以后的版本就引入了用户自定义的内存管理模型,但是是粗粒度的内存管理模型。总的来说,Spark的内存管理虽然没有做到Flink那么细粒度,但是也已经足够用于对内存进行优化了。Spark的每个运行时组件都是运行在一个独立的container中,这个container的启动内存由以下4个主要的大的内存配置进行确定,我们按照executor的内存单独来看,如下!~spark.executor.memory (heap size)这个
原创
发布博客 2021.07.08 ·
340 阅读 ·
0 点赞 ·
2 评论 ·
0 收藏

Hive - 之谓词下推解析

Hive - 之谓词下推解析Hive的谓词下推是在对数据做操作之前,扫描数据进内存的一种优化手段!那么具体什么时候会自动进行谓词下推呢,或者换一句话说谓词下推的规则是怎样的呢 ?-- 1 join 【对于join,不管谓词放在on 还是 放在join都会触发谓词下推】select * from a join b on a.id = b.id and a.name = 'a' and b.name = 'b'; --all pushed select * from a join b on a.i
原创
发布博客 2021.07.06 ·
764 阅读 ·
0 点赞 ·
1 评论 ·
2 收藏

CentOS7 - 之Nginx-1.12.2安装

CentOS7 - 之Nginx-1.12.2安装Nginx是一个出色的反向代理服务器,可以很好的代理服务端,处理客户端的请求。今天我们了解以下Nginx在CentOS7上的安装。注意!正向代理是代理的的客户端,是代理服务器帮客户端去访问其它的服务端。1、首先安装依赖的c语言的编译环境# 使用root权限进行操作sudo yum -y install make zlib zlib-devel gcc-c++ libtool openssl openssl-devel2、进行解压安装#
原创
发布博客 2021.07.05 ·
685 阅读 ·
0 点赞 ·
1 评论 ·
1 收藏

常用的nginx启停shell脚本

常用的nginx启停shell脚本#!/bin/bashJAVACMD=$JAVA_HOME/bin/javaAPP_NAME=logger-process-0.0.1.jarcase $1 in "start") { for i in shufang101 shufang102 shufang103 do echo ">>>>>>>>>>>>> $i starting processing jar
原创
发布博客 2021.07.05 ·
362 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

CentOS7-之Pheonix5.12安装部署(Hbase-2.1.1)

Phoenix5.12-之安装部署(Hbase-2.1.1)Phoenix与Hbase的版本兼容是很严格的,我们需要使用Phoenix去适配Hbase,有很严格的版本标准,具体的版本匹配如下图。具体版本的选择请查阅官网下载页面:https://phoenix.apache.org/download.html具体步骤如下:1、下载到tar包到指定的目录2、进行解压操作# 1 解压tar -zxvf phoenix-hbase-2.1-5.1.2-bin.tar.gz -C /opt/mod
原创
发布博客 2021.07.03 ·
493 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive-之posexplode函数查询startDate~endDate之间的所有日期

Hive-之posexplode函数实现查询startDate~endDate之间的所有日期需求:目前需要动态找到 20200603~20200607之间的所有日期-- 初始数据集WITH temp1 AS (select 'name1' as uid,'2020-06-03' as start_date, '2020-06-07' as end_date UNION ALL select 'name2' as uid,'2020-05-03' as start_date, '2020-05
原创
发布博客 2021.06.27 ·
779 阅读 ·
2 点赞 ·
2 评论 ·
5 收藏
加载更多