2020年10月_erainm

原创 Kudu

1. 为什么使用Kudu作为存储介质2. Kudu入门2.1 Kudu介绍2.2 Java代码操作Kudu2.3 Spark操作Kudu

2020-10-31 21:54:42 1657 4

原创 Canal

1. Canal简介2. Mysql的主备复制原理3. Canal的工作原理4. Canal的架构5. Canal安装部署6. Canal采集业务数据到Kafka7. 初始化业务数据

2020-10-30 12:55:01 546 1

原创 Oracle GoldenGate（OGG）- 超级详细

1. OGG简介2. 应用场景3. 基本原理4. 基本架构5. 常用的拓扑结构6. 支持的环境7. OGG安装部署7.1 配置Oracle11gR2数据库7.2 安装OGG源端7.3 配置OGG源端7.4 配置OGG目标端7.5 OGG测试8. 初始化业务数据8.1 安装OGG源端8.2 配置OGG源端8.3 配置OGG目标端8.4 OGG测试

2020-10-30 10:17:32 34422 11

转载 Spark调优之 -- Spark资源调优

1. 调优概述2. Spark作业基本运行原理3. 资源参数调优4. 资源参数参考示例

2020-10-29 16:41:11 304

原创 Spark调优之 -- Spark的并行度深入理解（别再让资源浪费了）

1. 并行度理解2. 设置Application并行度

2020-10-29 11:23:53 6072

原创各种技术中间件对比（2020.11.9第二次更新）

1. Kafka比对其它MQ中间件2. 分布式计算比对3. 海量数据存储比对4. ClickHouse与其他的OLAP框架的比较5. 任务调度比对6. 数据分析比对7. 数据存储比对8. 数据采集比对9. 工作流调度工具之间对比开源OLAP引擎

2020-10-29 10:13:59 1347

原创 Docker -- 全都在这里(一篇让你熟知Docker)

1. Docker介绍2. Docker组件3. Docker的安装和启动4. Docker常用命令5. Docker应用部署6. Docker的迁移与备份7. Docker镜像8. Dockerfile9. Docker私有仓库

2020-10-29 09:45:19 774 1

原创 Spark调优之 -- 对于 Spark 中的数据倾斜问题(已更新)

1. 什么是数据倾斜2. 数据倾斜是如何造成的？3. 发生数据倾斜以后的现象4. 定位数据倾斜出现的原因与出现问题的位置5. 解决方案总体原理说明6. 具体解决方案 6.1 聚合源数据以及过滤导致倾斜的key 6.2 提高shuffle操作reduce并行度 6.3 使用随机key实现双重聚合 6.4 将reduce join转换为map join 6.5 sample采样倾斜key单独进行join 6.6 使用随机数以及扩容表进行join

2020-10-20 19:30:06 368

原创 Spark的内存模型及Executor的Execution内存解析

1. Spark的内存模型1.1 Execution 内存和 Storage 内存动态调整1.2 Task 之间内存分布2. Execution内存解析

2020-10-20 19:15:17 1652

原创任务调度之Oozie详解

1. Oozie的特点2. 为什么选择Oozie3. Oozie-Azkaban详细对比4. 主要概念5. Job组成6. Workflow介绍7. Coordinator介绍8. Bundle介绍9. 案例演示10. Oozie工具类代码开发11. Oozie整合SpringBoot编写任务调度【测试】

2020-10-20 12:33:42 13558 1

原创 mac版VMWare的vmnet8默认网关和ip配置

sudo vim /Library/Preferences/VMware\ Fusion/networking“vmnet8默认网关”配置文件sudo vim /Library/Preferences/VMware\ Fusion/vmnet8/nat.confcentos6配置vi /etc/udev/rules.d/70-persistent-net.rules,删除eth0有关内容，修改eth1为eth0, vim /etc/sysconfig/network-scripts/ifc

2020-10-18 19:45:31 2563 2

原创机器学习基础

机器学习和大数据的区别和联系1. 机器学习引入2. 机器学习三次浪潮3. 人工智能领域基础概念区别4. 什么是机器学习5. 基于规则学习和基于模型的学习6. 机器学习数据的基本概念7. 机器学习分类及场景应用8. 如何理解机器学习三要素9. 构建机器学习模型10. 模型选择11. 经验风险与结构风险12. 正则化13. 交叉验证14. 机器学习库基础

2020-10-18 15:30:05 2339 3

原创 spark(61) -- SparkMllib -- 基于SparkMllib的数据清洗项目实践

1. 获取数据2. 用户数据的EDA分析实践3. 业务数据的EDA分析实践4. 评分数据的EDA分析实践5. 数据的处理及转换分析实践6. 数值型和类别型数据的处理方案及实践7. 派生特征数据的处理方法及实践8. 文本特征处理方法及实践9. 正则化特征处理方法及实践10. TF-IDF和Word2Vec提取特征实践11. 总结

2020-10-17 11:36:39 607

原创 spark(60) -- SparkMllib -- 基于SparkMllib数据特征工程构建过程

1. SparkMllib特征工程构建过程2. SparkMllib特征提取操作实践3. SparkMllib特征转换操作详解及实践4. SparkMllib特征选择操作及实践5. 项目案例-业务数据统计分析实践6. 项目案例-Iris鸢尾花数据分析案例实践7. 项目案例Homeprise数据分析实践

2020-10-17 10:34:15 636

原创 spark(59) -- SparkMllib -- 基于SparkMllib的统计特征实践

1. SparkMllib的SummaryStatistic摘要统计2. SparkMllib的Correlation相关系数详解及实战3. SparkMllib的HypothesisTesting原理及实战4. SparkMllib的随机数生成时间

2020-10-17 09:40:52 223

原创 spark(58) -- SparkMllib -- SparkMllib的基础数据类型

1. SparkMllIb数据类型简介 MLLIB支持很多种机器学习算法中类型，主要有向量和矩阵两种类型。有下面四种分类：（1）Local vector本地向量集，主要向Spark提供一组可进行操作的数据集合。（2）Labeled Point向量标签，让用户能够分类不同的数据集合。（3）Local matrix本地矩阵，将数据集合以矩阵形式存储在本地计算机中。（4）Distribute matrix分布式矩阵。将数据集以矩阵的形式存储在分布式的计算机中。2. Spark的LocalVector

2020-10-17 09:29:45 223

原创 spark(57) -- SparkMllib -- SparkMllib的算法的分类和应用场景

1. 机器学习系统设计及架构2. SparkMllib算法对机器学习建模各过程的支持3. SparkMllib分类算法比较及应用场景详解4. SparkMllib回归算法比较及应用场景详解5. SparkMllib聚类算法比较及应用场景详解6. SparkMllib关联算法比较及应用场景详解7. SparkMllib推荐算法比较及应用场景详解

2020-10-17 09:16:54 835

原创 spark(56) -- SparkMllib -- SparkMllib的功能和应用场景

1. SparkMllib简介及功能介绍2. SparkML版本变迁3. SparkMllib架构详解4. 基于RDD的API与基于DataFrame的API区别和应用5. SparkMllib的环境搭建与IDEA环境配置6. RDD、DataSet、Dataframe区别及转化过程

2020-10-17 09:05:03 1461 1

原创 Spark(55) -- StructuredStreaming -- Continuous Processing

1. 连续处理概述2. 编程实现3. 支持查询4. 附录：Maven 依赖

2020-10-16 15:17:44 381

原创 Spark(54) -- StructuredStreaming -- Streaming Deduplication（流去重）

Structured Streaming可以使用deduplication对有无Watermark的流式数据进行去重操作对网站用户日志数据，按照userId和eventType去重统计

2020-10-16 15:10:19 306

原创 Spark(53) -- StructuredStreaming -- 事件时间窗口分析

1. 时间概念2. event-time 窗口分析3. event-time 窗口生成4. 延迟数据处理 4.1 延迟数据 4.2 Watermarking 水位 4.3 官方案例演示

2020-10-16 15:05:09 1547

原创 Spark(52) -- StructuredStreaming -- 模拟物联网设备数据分析

1. 设备监控数据2. 基于DataFrame分析3. 基于SQL分析

2020-10-16 14:45:34 238

原创 Spark(51) -- StructuredStreaming集成 Kafka

1. Kafka 数据消费2. Kafka 数据源3. Kafka 接收器 3.1 配置说明 3.2 实时数据ETL架构 3.3 模拟基站日志数据 3.4 实时增量ETL4. Kafka 特定配置

2020-10-16 12:59:07 251

原创 Spark(50) -- StructuredStreaming -- Streaming Queries

1. 输出模式2. 查询名称3. 触发间隔4. 检查点位置5. 输出终端（Sinks）6. 容错语义

2020-10-14 20:40:06 219

原创 Spark(49) -- Structured Streaming -- Input Sources 输入源

1. DataStreamReader 接口2. 文件数据源3. Rate source

2020-10-14 19:49:01 158

原创 Spark(48) -- Structured Streaming

Structured Streaming、1. Structured Streaming不足2. Structured Streaming 概述3. 入门案例：WordCount

2020-10-14 19:27:21 358

原创 Spark(47) -- SparkStreaming的容错

1. 检查点机制2. 驱动器程序容错3. 工作节点容错4. 接收器容错5. 处理保证

2020-10-14 18:36:24 158

原创 Spark(46) -- SparkStreaming整合kafka数据源

1. 回顾 Kafka2. 集成方式3. 两种方式区别（Receiver和Direct）4. 整合Kafka两种模式说明5. [了解]Apache Kafka数据源0.8版本对接方式6. [掌握]Apche kafka数据源0.10版本对接7. 偏移量管理(MySQL 存储偏移量)

2020-10-13 17:39:42 337

原创 Spark(45) -- SparkStreaming -- SparkStreaming高级数据源之flume数据源

flume数据源 1. Poll方式 2. push方式

2020-10-12 22:59:46 360

原创 Spark(44) -- SparkStreaming -- SparkStreaming数据源

1. 基本数据源2. 文件数据源3. 自定义数据源4. RDD队列

2020-10-12 22:44:24 341

原创 Spark(43) -- SparkStreaming -- 案例：统计一定时间内的热门词汇TopN

1. 需求2. scala代码

2020-10-12 22:35:35 396

原创 Spark(42) -- SparkStreaming -- reduceByKeyAndWindow 函数详解

1. 图解2. 代码演示3. 执行步骤4. window 函数补充（窗口函数）5. 集成 SparkSQL补充5.1 案例：仅统计处理时间内数据5.2 有状态统计

2020-10-12 22:32:56 421

原创 Spark(41) -- SparkStreaming -- mapWithState函数(状态更新函数，返回变化的数据)

mapWithState函数全局统计详解

2020-10-12 21:13:27 355

原创 Spark(40) -- SparkStreaming -- UpdateStateByKey实现批次数据统计结果累加

1. 问题解决每个批次的单词次数统计出来后结果累加问题，使用updateStateByKey(func)来更新状态.2. 代码演示3. 执行步骤

2020-10-12 20:48:57 446

原创 Spark(39) -- SparkStreaming -- 流式应用状态

流式应用状态业务一：无状态Stateless业务二：有状态State

2020-10-12 20:44:19 153

原创 Spark(38) -- SparkStreaming -- DStream案例操作、应用监控及Streaming工作原理

1. wordcount案例2. Streaming 工作原理

2020-10-12 20:36:49 282

原创 Spark(37) -- Spark Streaming -- DStream(Discretized Stream)及DStream相关操作

1. 什么是DStream2. DStream相关操作2.1 算子汇总2.2 Transformations on DStreams2.3 Output Operations on DStreams2.4 StreamingContext对象2.5 编写代码思路

2020-10-08 08:15:49 204

原创 Spark(36) -- Spark Streaming原理与架构

1. Spark Streaming原理2. Spark Streaming计算流程3. Spark Streaming实时性4. Spark的架构

2020-10-08 08:15:24 204 1

原创 Spark(35) -- SparkStreaming -- 概述

1. Streaming 应用场景2. Lambda 架构3. Streaming 计算模式4. SparkStreaming 计算思想5. 什么是Spark Streaming6. 为什么要学习Spark Streaming7. SparkStreaming与Storm的对比

2020-10-07 19:24:25 596

原创 Spark(34) -- Spark SQL补充 -- 窗口函数案例

1. 案例一：第一名和第二名案例2. 案例二：最优差值案例

2020-10-07 11:42:52 113

DirectX-Repair

SecureFX_9.0.1_(2451.141440)__macwk.dmg

Mac版 - SecureCRT_9.0.1_(2451.141440)__macw.dmg

空空如也