- 博客(72)
- 资源 (3)
- 收藏
- 关注
原创 Kudu
1. 为什么使用Kudu作为存储介质2. Kudu入门2.1 Kudu介绍2.2 Java代码操作Kudu2.3 Spark操作Kudu
2020-10-31 21:54:42 1657 4
原创 Canal
1. Canal简介2. Mysql的主备复制原理3. Canal的工作原理4. Canal的架构5. Canal安装部署6. Canal采集业务数据到Kafka7. 初始化业务数据
2020-10-30 12:55:01 546 1
原创 Oracle GoldenGate(OGG)- 超级详细
1. OGG简介2. 应用场景3. 基本原理4. 基本架构5. 常用的拓扑结构6. 支持的环境7. OGG安装部署7.1 配置Oracle11gR2数据库7.2 安装OGG源端7.3 配置OGG源端7.4 配置OGG目标端7.5 OGG测试8. 初始化业务数据8.1 安装OGG源端8.2 配置OGG源端8.3 配置OGG目标端8.4 OGG测试
2020-10-30 10:17:32 34422 11
原创 各种技术中间件对比(2020.11.9第二次更新)
1. Kafka比对其它MQ中间件2. 分布式计算比对3. 海量数据存储比对4. ClickHouse与其他的OLAP框架的比较5. 任务调度比对6. 数据分析比对7. 数据存储比对8. 数据采集比对9. 工作流调度工具之间对比开源OLAP引擎
2020-10-29 10:13:59 1347
原创 Docker -- 全都在这里(一篇让你熟知Docker)
1. Docker介绍2. Docker组件3. Docker的安装和启动4. Docker常用命令5. Docker应用部署6. Docker的迁移与备份7. Docker镜像8. Dockerfile9. Docker私有仓库
2020-10-29 09:45:19 774 1
原创 Spark调优之 -- 对于 Spark 中的数据倾斜问题(已更新)
1. 什么是数据倾斜2. 数据倾斜是如何造成的?3. 发生数据倾斜以后的现象4. 定位数据倾斜出现的原因与出现问题的位置5. 解决方案总体原理说明6. 具体解决方案 6.1 聚合源数据以及过滤导致倾斜的key 6.2 提高shuffle操作reduce并行度 6.3 使用随机key实现双重聚合 6.4 将reduce join转换为map join 6.5 sample采样倾斜key单独进行join 6.6 使用随机数以及扩容表进行join
2020-10-20 19:30:06 368
原创 Spark的内存模型及Executor的Execution内存解析
1. Spark的内存模型1.1 Execution 内存和 Storage 内存动态调整1.2 Task 之间内存分布2. Execution内存解析
2020-10-20 19:15:17 1652
原创 任务调度之Oozie详解
1. Oozie的特点2. 为什么选择Oozie3. Oozie-Azkaban详细对比4. 主要概念5. Job组成6. Workflow介绍7. Coordinator介绍8. Bundle介绍9. 案例演示10. Oozie工具类代码开发11. Oozie整合SpringBoot编写任务调度【测试】
2020-10-20 12:33:42 13558 1
原创 mac版VMWare的vmnet8默认网关和ip配置
sudo vim /Library/Preferences/VMware\ Fusion/networking“vmnet8默认网关”配置文件sudo vim /Library/Preferences/VMware\ Fusion/vmnet8/nat.confcentos6配置vi /etc/udev/rules.d/70-persistent-net.rules,删除eth0有关内容,修改eth1为eth0, vim /etc/sysconfig/network-scripts/ifc
2020-10-18 19:45:31 2563 2
原创 机器学习基础
机器学习和大数据的区别和联系1. 机器学习引入2. 机器学习三次浪潮3. 人工智能领域基础概念区别4. 什么是机器学习5. 基于规则学习和基于模型的学习6. 机器学习数据的基本概念7. 机器学习分类及场景应用8. 如何理解机器学习三要素9. 构建机器学习模型10. 模型选择11. 经验风险与结构风险12. 正则化13. 交叉验证14. 机器学习库基础
2020-10-18 15:30:05 2339 3
原创 spark(61) -- SparkMllib -- 基于SparkMllib的数据清洗项目实践
1. 获取数据2. 用户数据的EDA分析实践3. 业务数据的EDA分析实践4. 评分数据的EDA分析实践5. 数据的处理及转换分析实践6. 数值型和类别型数据的处理方案及实践7. 派生特征数据的处理方法及实践8. 文本特征处理方法及实践9. 正则化特征处理方法及实践10. TF-IDF和Word2Vec提取特征实践11. 总结
2020-10-17 11:36:39 607
原创 spark(60) -- SparkMllib -- 基于SparkMllib数据特征工程构建过程
1. SparkMllib特征工程构建过程2. SparkMllib特征提取操作实践3. SparkMllib特征转换操作详解及实践4. SparkMllib特征选择操作及实践5. 项目案例-业务数据统计分析实践6. 项目案例-Iris鸢尾花数据分析案例实践7. 项目案例Homeprise数据分析实践
2020-10-17 10:34:15 636
原创 spark(59) -- SparkMllib -- 基于SparkMllib的统计特征实践
1. SparkMllib的SummaryStatistic摘要统计2. SparkMllib的Correlation相关系数详解及实战3. SparkMllib的HypothesisTesting原理及实战4. SparkMllib的随机数生成时间
2020-10-17 09:40:52 223
原创 spark(58) -- SparkMllib -- SparkMllib的基础数据类型
1. SparkMllIb数据类型简介 MLLIB支持很多种机器学习算法中类型,主要有向量和矩阵两种类型。有下面四种分类:(1)Local vector本地向量集,主要向Spark提供一组可进行操作的数据集合。(2)Labeled Point向量标签,让用户能够分类不同的数据集合。(3)Local matrix本地矩阵,将数据集合以矩阵形式存储在本地计算机中。(4)Distribute matrix分布式矩阵。将数据集以矩阵的形式存储在分布式的计算机中。2. Spark的LocalVector
2020-10-17 09:29:45 223
原创 spark(57) -- SparkMllib -- SparkMllib的算法的分类和应用场景
1. 机器学习系统设计及架构2. SparkMllib算法对机器学习建模各过程的支持3. SparkMllib分类算法比较及应用场景详解4. SparkMllib回归算法比较及应用场景详解5. SparkMllib聚类算法比较及应用场景详解6. SparkMllib关联算法比较及应用场景详解7. SparkMllib推荐算法比较及应用场景详解
2020-10-17 09:16:54 835
原创 spark(56) -- SparkMllib -- SparkMllib的功能和应用场景
1. SparkMllib简介及功能介绍2. SparkML版本变迁3. SparkMllib架构详解4. 基于RDD的API与基于DataFrame的API区别和应用5. SparkMllib的环境搭建与IDEA环境配置6. RDD、DataSet、Dataframe区别及转化过程
2020-10-17 09:05:03 1461 1
原创 Spark(55) -- StructuredStreaming -- Continuous Processing
1. 连续处理概述2. 编程实现3. 支持查询4. 附录:Maven 依赖
2020-10-16 15:17:44 381
原创 Spark(54) -- StructuredStreaming -- Streaming Deduplication(流去重)
Structured Streaming可以使用deduplication对有无Watermark的流式数据进行去重操作对网站用户日志数据,按照userId和eventType去重统计
2020-10-16 15:10:19 306
原创 Spark(53) -- StructuredStreaming -- 事件时间窗口分析
1. 时间概念2. event-time 窗口分析3. event-time 窗口生成4. 延迟数据处理 4.1 延迟数据 4.2 Watermarking 水位 4.3 官方案例演示
2020-10-16 15:05:09 1547
原创 Spark(52) -- StructuredStreaming -- 模拟物联网设备数据分析
1. 设备监控数据2. 基于DataFrame分析3. 基于SQL分析
2020-10-16 14:45:34 238
原创 Spark(51) -- StructuredStreaming集成 Kafka
1. Kafka 数据消费2. Kafka 数据源3. Kafka 接收器 3.1 配置说明 3.2 实时数据ETL架构 3.3 模拟基站日志数据 3.4 实时增量ETL4. Kafka 特定配置
2020-10-16 12:59:07 251
原创 Spark(50) -- StructuredStreaming -- Streaming Queries
1. 输出模式2. 查询名称3. 触发间隔4. 检查点位置5. 输出终端(Sinks)6. 容错语义
2020-10-14 20:40:06 219
原创 Spark(49) -- Structured Streaming -- Input Sources 输入源
1. DataStreamReader 接口2. 文件数据源3. Rate source
2020-10-14 19:49:01 158
原创 Spark(48) -- Structured Streaming
Structured Streaming、1. Structured Streaming不足2. Structured Streaming 概述3. 入门案例:WordCount
2020-10-14 19:27:21 358
原创 Spark(47) -- SparkStreaming的容错
1. 检查点机制2. 驱动器程序容错3. 工作节点容错4. 接收器容错5. 处理保证
2020-10-14 18:36:24 158
原创 Spark(46) -- SparkStreaming整合kafka数据源
1. 回顾 Kafka2. 集成方式3. 两种方式区别(Receiver和Direct)4. 整合Kafka两种模式说明5. [了解]Apache Kafka数据源0.8版本对接方式6. [掌握]Apche kafka数据源0.10版本对接7. 偏移量管理(MySQL 存储偏移量)
2020-10-13 17:39:42 337
原创 Spark(45) -- SparkStreaming -- SparkStreaming高级数据源之flume数据源
flume数据源 1. Poll方式 2. push方式
2020-10-12 22:59:46 360
原创 Spark(44) -- SparkStreaming -- SparkStreaming数据源
1. 基本数据源2. 文件数据源3. 自定义数据源4. RDD队列
2020-10-12 22:44:24 341
原创 Spark(42) -- SparkStreaming -- reduceByKeyAndWindow 函数详解
1. 图解2. 代码演示3. 执行步骤4. window 函数补充(窗口函数)5. 集成 SparkSQL补充5.1 案例:仅统计处理时间内数据5.2 有状态统计
2020-10-12 22:32:56 421
原创 Spark(41) -- SparkStreaming -- mapWithState函数(状态更新函数,返回变化的数据)
mapWithState函数全局统计详解
2020-10-12 21:13:27 355
原创 Spark(40) -- SparkStreaming -- UpdateStateByKey实现批次数据统计结果累加
1. 问题解决每个批次的单词次数统计出来后结果累加问题,使用updateStateByKey(func)来更新状态.2. 代码演示3. 执行步骤
2020-10-12 20:48:57 446
原创 Spark(38) -- SparkStreaming -- DStream案例操作、应用监控及Streaming工作原理
1. wordcount案例2. Streaming 工作原理
2020-10-12 20:36:49 282
原创 Spark(37) -- Spark Streaming -- DStream(Discretized Stream)及DStream相关操作
1. 什么是DStream2. DStream相关操作2.1 算子汇总2.2 Transformations on DStreams2.3 Output Operations on DStreams2.4 StreamingContext对象2.5 编写代码思路
2020-10-08 08:15:49 204
原创 Spark(36) -- Spark Streaming原理与架构
1. Spark Streaming原理2. Spark Streaming计算流程3. Spark Streaming实时性4. Spark的架构
2020-10-08 08:15:24 204 1
原创 Spark(35) -- SparkStreaming -- 概述
1. Streaming 应用场景2. Lambda 架构3. Streaming 计算模式4. SparkStreaming 计算思想5. 什么是Spark Streaming6. 为什么要学习Spark Streaming7. SparkStreaming与Storm的对比
2020-10-07 19:24:25 596
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人