自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

erainm

从Java到大数据,尽力写的详细一些,大家一起学习,愿我的付出不辜负大家的关注,加油!!!

  • 博客(173)
  • 资源 (1)
  • 收藏
  • 关注

原创 数仓建模笔记

一、数仓建设步骤及宏观逻辑1.1 范式1.2 常见的数仓建模方法1.3 维度建模的步骤二、事实表技术概念2.1 事实表结构2.2 可加、半可加、不可加事实2.3 常见的事实表三、维度表技术概念3.1 常见的维度键3.2 常见的维度类型

2020-11-25 08:28:25 8

原创 最近已离职

抱歉,小伙伴们,最近我也离职了,再找新工作,所以就没更新了,别着急哈,等我稳定下来再接着写,下一步可能写,数据治理,数据湖,hudi ,Flink等????

2020-11-18 18:20:58 7

原创 ClickHouse

1. ClickHouse概述2. ClickHouse的应用场景3. ClickHouse的使用案例4. ClickHouse快速入门5. ClickHouse的数据类型支持6. ClickHouse的引擎7. ClickHouse的SQL语法8. ClickHouse的SQL函数9. Clickhouse中update/delete的使用10. ClickHouse的使用

2020-11-10 09:52:15 157

原创 工作流调度之 -- Azkaban

1. 工作流调度2. Azkaban调度器3. 项目实战

2020-11-07 09:45:24 64 1

原创 Kudu(2) -- 数据模型、原理与优化

1. 表与schema2. kudu的底层数据模型3. Tablet的发现过程4. Kudu读写更新原理5. Kudu的优化

2020-11-04 17:47:14 29 1

原创 数仓简介及hive全面总结

1. 数据仓库主要特征2. 数据仓库(OLAP)与数据库(OLTP)区别3. 数据仓库的分层4. 数据仓库之ETL5. Hive的特点6. Hive架构7. Hive的安装模式8. Hive的交互方式9. Hive各种表10. ORDER BY、Sort By、Distribute By、Cluster By区别:11. Hive函数:13. Hive的数据存储格式:14. Hive调优:15. hive小文件过多问题

2020-11-02 17:57:31 55

原创 Kudu

1. 为什么使用Kudu作为存储介质2. Kudu入门2.1 Kudu介绍2.2 Java代码操作Kudu2.3 Spark操作Kudu

2020-10-31 21:54:42 1089 4

原创 Canal

1. Canal简介2. Mysql的主备复制原理3. Canal的工作原理4. Canal的架构5. Canal安装部署6. Canal采集业务数据到Kafka7. 初始化业务数据

2020-10-30 12:55:01 61 1

原创 Oracle GoldenGate(OGG)- 超级详细

1. OGG简介2. 应用场景3. 基本原理4. 基本架构5. 常用的拓扑结构6. 支持的环境7. OGG安装部署7.1 配置Oracle11gR2数据库7.2 安装OGG源端7.3 配置OGG源端7.4 配置OGG目标端7.5 OGG测试8. 初始化业务数据8.1 安装OGG源端8.2 配置OGG源端8.3 配置OGG目标端8.4 OGG测试

2020-10-30 10:17:32 176

转载 Spark调优之 -- Spark资源调优

1. 调优概述2. Spark作业基本运行原理3. 资源参数调优4. 资源参数参考示例

2020-10-29 16:41:11 15

原创 Spark调优之 -- Spark的并行度深入理解(别再让资源浪费了)

1. 并行度理解2. 设置Application并行度

2020-10-29 11:23:53 53

原创 各种技术中间件对比(2020.11.9第二次更新)

1. Kafka比对其它MQ中间件2. 分布式计算比对3. 海量数据存储比对4. ClickHouse与其他的OLAP框架的比较5. 任务调度比对6. 数据分析比对7. 数据存储比对8. 数据采集比对9. 工作流调度工具之间对比开源OLAP引擎

2020-10-29 10:13:59 120

原创 Docker -- 全都在这里(一篇让你熟知Docker)

1. Docker介绍2. Docker组件3. Docker的安装和启动4. Docker常用命令5. Docker应用部署6. Docker的迁移与备份7. Docker镜像8. Dockerfile9. Docker私有仓库

2020-10-29 09:45:19 97 1

原创 Spark调优之 -- 对于 Spark 中的数据倾斜问题(已更新)

1. 什么是数据倾斜2. 数据倾斜是如何造成的?3. 发生数据倾斜以后的现象4. 定位数据倾斜出现的原因与出现问题的位置5. 解决方案总体原理说明6. 具体解决方案 6.1 聚合源数据以及过滤导致倾斜的key 6.2 提高shuffle操作reduce并行度 6.3 使用随机key实现双重聚合 6.4 将reduce join转换为map join 6.5 sample采样倾斜key单独进行join 6.6 使用随机数以及扩容表进行join

2020-10-20 19:30:06 45

原创 Spark的内存模型及Executor的Execution内存解析

1. Spark的内存模型1.1 Execution 内存和 Storage 内存动态调整1.2 Task 之间内存分布2. Execution内存解析

2020-10-20 19:15:17 43

原创 任务调度之Oozie详解

1. Oozie的特点2. 为什么选择Oozie3. Oozie-Azkaban详细对比4. 主要概念5. Job组成6. Workflow介绍7. Coordinator介绍8. Bundle介绍9. 案例演示10. Oozie工具类代码开发11. Oozie整合SpringBoot编写任务调度【测试】

2020-10-20 12:33:42 83 1

原创 mac版VMWare的vmnet8默认网关和ip配置

sudo vim /Library/Preferences/VMware\ Fusion/networking“vmnet8默认网关”配置文件sudo vim /Library/Preferences/VMware\ Fusion/vmnet8/nat.confcentos6配置vi /etc/udev/rules.d/70-persistent-net.rules,删除eth0有关内容,修改eth1为eth0, vim /etc/sysconfig/network-scripts/ifc

2020-10-18 19:45:31 124

原创 机器学习基础

机器学习和大数据的区别和联系1. 机器学习引入2. 机器学习三次浪潮3. 人工智能领域基础概念区别4. 什么是机器学习5. 基于规则学习和基于模型的学习6. 机器学习数据的基本概念7. 机器学习分类及场景应用8. 如何理解机器学习三要素9. 构建机器学习模型10. 模型选择11. 经验风险与结构风险12. 正则化13. 交叉验证14. 机器学习库基础

2020-10-18 15:30:05 255 2

原创 spark(61) -- SparkMllib -- 基于SparkMllib的数据清洗项目实践

1. 获取数据2. 用户数据的EDA分析实践3. 业务数据的EDA分析实践4. 评分数据的EDA分析实践5. 数据的处理及转换分析实践6. 数值型和类别型数据的处理方案及实践7. 派生特征数据的处理方法及实践8. 文本特征处理方法及实践9. 正则化特征处理方法及实践10. TF-IDF和Word2Vec提取特征实践11. 总结

2020-10-17 11:36:39 128

原创 spark(60) -- SparkMllib -- 基于SparkMllib数据特征工程构建过程

1. SparkMllib特征工程构建过程2. SparkMllib特征提取操作实践3. SparkMllib特征转换操作详解及实践4. SparkMllib特征选择操作及实践5. 项目案例-业务数据统计分析实践6. 项目案例-Iris鸢尾花数据分析案例实践7. 项目案例Homeprise数据分析实践

2020-10-17 10:34:15 84

原创 spark(59) -- SparkMllib -- 基于SparkMllib的统计特征实践

1. SparkMllib的SummaryStatistic摘要统计2. SparkMllib的Correlation相关系数详解及实战3. SparkMllib的HypothesisTesting原理及实战4. SparkMllib的随机数生成时间

2020-10-17 09:40:52 48

原创 spark(58) -- SparkMllib -- SparkMllib的基础数据类型

1. SparkMllIb数据类型简介 MLLIB支持很多种机器学习算法中类型,主要有向量和矩阵两种类型。有下面四种分类:(1)Local vector本地向量集,主要向Spark提供一组可进行操作的数据集合。(2)Labeled Point向量标签,让用户能够分类不同的数据集合。(3)Local matrix本地矩阵,将数据集合以矩阵形式存储在本地计算机中。(4)Distribute matrix分布式矩阵。将数据集以矩阵的形式存储在分布式的计算机中。2. Spark的LocalVector

2020-10-17 09:29:45 14

原创 spark(57) -- SparkMllib -- SparkMllib的算法的分类和应用场景

1. 机器学习系统设计及架构2. SparkMllib算法对机器学习建模各过程的支持3. SparkMllib分类算法比较及应用场景详解4. SparkMllib回归算法比较及应用场景详解5. SparkMllib聚类算法比较及应用场景详解6. SparkMllib关联算法比较及应用场景详解7. SparkMllib推荐算法比较及应用场景详解

2020-10-17 09:16:54 60

原创 spark(56) -- SparkMllib -- SparkMllib的功能和应用场景

1. SparkMllib简介及功能介绍2. SparkML版本变迁3. SparkMllib架构详解4. 基于RDD的API与基于DataFrame的API区别和应用5. SparkMllib的环境搭建与IDEA环境配置6. RDD、DataSet、Dataframe区别及转化过程

2020-10-17 09:05:03 53 1

原创 Spark(55) -- StructuredStreaming -- Continuous Processing

1. 连续处理概述2. 编程实现3. 支持查询4. 附录:Maven 依赖

2020-10-16 15:17:44 29

原创 Spark(54) -- StructuredStreaming -- Streaming Deduplication(流去重)

Structured Streaming可以使用deduplication对有无Watermark的流式数据进行去重操作对网站用户日志数据,按照userId和eventType去重统计

2020-10-16 15:10:19 22

原创 Spark(53) -- StructuredStreaming -- 事件时间窗口分析

1. 时间概念2. event-time 窗口分析3. event-time 窗口生成4. 延迟数据处理 4.1 延迟数据 4.2 Watermarking 水位 4.3 官方案例演示

2020-10-16 15:05:09 115

原创 Spark(52) -- StructuredStreaming -- 模拟物联网设备数据分析

1. 设备监控数据2. 基于DataFrame分析3. 基于SQL分析

2020-10-16 14:45:34 9

原创 Spark(51) -- StructuredStreaming集成 Kafka

1. Kafka 数据消费2. Kafka 数据源3. Kafka 接收器 3.1 配置说明 3.2 实时数据ETL架构 3.3 模拟基站日志数据 3.4 实时增量ETL4. Kafka 特定配置

2020-10-16 12:59:07 29

原创 Spark(50) -- StructuredStreaming -- Streaming Queries

1. 输出模式2. 查询名称3. 触发间隔4. 检查点位置5. 输出终端(Sinks)6. 容错语义

2020-10-14 20:40:06 33

原创 Spark(49) -- Structured Streaming -- Input Sources 输入源

1. DataStreamReader 接口2. 文件数据源3. Rate source

2020-10-14 19:49:01 13

原创 Spark(48) -- Structured Streaming

Structured Streaming、1. Structured Streaming不足2. Structured Streaming 概述3. 入门案例:WordCount

2020-10-14 19:27:21 22

原创 Spark(47) -- SparkStreaming的容错

1. 检查点机制2. 驱动器程序容错3. 工作节点容错4. 接收器容错5. 处理保证

2020-10-14 18:36:24 18

原创 Spark(46) -- SparkStreaming整合kafka数据源

1. 回顾 Kafka2. 集成方式3. 两种方式区别(Receiver和Direct)4. 整合Kafka两种模式说明5. [了解]Apache Kafka数据源0.8版本对接方式6. [掌握]Apche kafka数据源0.10版本对接7. 偏移量管理(MySQL 存储偏移量)

2020-10-13 17:39:42 83

原创 Spark(45) -- SparkStreaming -- SparkStreaming高级数据源之flume数据源

flume数据源 1. Poll方式 2. push方式

2020-10-12 22:59:46 28

原创 Spark(44) -- SparkStreaming -- SparkStreaming数据源

1. 基本数据源2. 文件数据源3. 自定义数据源4. RDD队列

2020-10-12 22:44:24 18

原创 Spark(43) -- SparkStreaming -- 案例:统计一定时间内的热门词汇TopN

1. 需求2. scala代码

2020-10-12 22:35:35 21

原创 Spark(42) -- SparkStreaming -- reduceByKeyAndWindow 函数详解

1. 图解2. 代码演示3. 执行步骤4. window 函数补充(窗口函数)5. 集成 SparkSQL补充5.1 案例:仅统计处理时间内数据5.2 有状态统计

2020-10-12 22:32:56 34

原创 Spark(41) -- SparkStreaming -- mapWithState函数(状态更新函数,返回变化的数据)

mapWithState函数全局统计详解

2020-10-12 21:13:27 19

原创 Spark(40) -- SparkStreaming -- UpdateStateByKey实现批次数据统计结果累加

1. 问题解决每个批次的单词次数统计出来后结果累加问题,使用updateStateByKey(func)来更新状态.2. 代码演示3. 执行步骤

2020-10-12 20:48:57 22

ArcGIS+Engine+C#实例开发教程

为Engine+C#爱好者提供,相互交流

2015-01-04

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除