- 博客(198)
- 资源 (3)
- 收藏
- 关注
原创 任务调度之Oozie详解
1. Oozie的特点2. 为什么选择Oozie3. Oozie-Azkaban详细对比4. 主要概念5. Job组成6. Workflow介绍7. Coordinator介绍8. Bundle介绍9. 案例演示10. Oozie工具类代码开发11. Oozie整合SpringBoot编写任务调度【测试】
2020-10-20 12:33:42
13772
1
原创 mac版VMWare的vmnet8默认网关和ip配置
sudo vim /Library/Preferences/VMware\ Fusion/networking“vmnet8默认网关”配置文件sudo vim /Library/Preferences/VMware\ Fusion/vmnet8/nat.confcentos6配置vi /etc/udev/rules.d/70-persistent-net.rules,删除eth0有关内容,修改eth1为eth0, vim /etc/sysconfig/network-scripts/ifc
2020-10-18 19:45:31
2616
2
原创 机器学习基础
机器学习和大数据的区别和联系1. 机器学习引入2. 机器学习三次浪潮3. 人工智能领域基础概念区别4. 什么是机器学习5. 基于规则学习和基于模型的学习6. 机器学习数据的基本概念7. 机器学习分类及场景应用8. 如何理解机器学习三要素9. 构建机器学习模型10. 模型选择11. 经验风险与结构风险12. 正则化13. 交叉验证14. 机器学习库基础
2020-10-18 15:30:05
2383
3
原创 spark(61) -- SparkMllib -- 基于SparkMllib的数据清洗项目实践
1. 获取数据2. 用户数据的EDA分析实践3. 业务数据的EDA分析实践4. 评分数据的EDA分析实践5. 数据的处理及转换分析实践6. 数值型和类别型数据的处理方案及实践7. 派生特征数据的处理方法及实践8. 文本特征处理方法及实践9. 正则化特征处理方法及实践10. TF-IDF和Word2Vec提取特征实践11. 总结
2020-10-17 11:36:39
659
原创 spark(60) -- SparkMllib -- 基于SparkMllib数据特征工程构建过程
1. SparkMllib特征工程构建过程2. SparkMllib特征提取操作实践3. SparkMllib特征转换操作详解及实践4. SparkMllib特征选择操作及实践5. 项目案例-业务数据统计分析实践6. 项目案例-Iris鸢尾花数据分析案例实践7. 项目案例Homeprise数据分析实践
2020-10-17 10:34:15
685
原创 spark(59) -- SparkMllib -- 基于SparkMllib的统计特征实践
1. SparkMllib的SummaryStatistic摘要统计2. SparkMllib的Correlation相关系数详解及实战3. SparkMllib的HypothesisTesting原理及实战4. SparkMllib的随机数生成时间
2020-10-17 09:40:52
244
原创 spark(58) -- SparkMllib -- SparkMllib的基础数据类型
1. SparkMllIb数据类型简介 MLLIB支持很多种机器学习算法中类型,主要有向量和矩阵两种类型。有下面四种分类:(1)Local vector本地向量集,主要向Spark提供一组可进行操作的数据集合。(2)Labeled Point向量标签,让用户能够分类不同的数据集合。(3)Local matrix本地矩阵,将数据集合以矩阵形式存储在本地计算机中。(4)Distribute matrix分布式矩阵。将数据集以矩阵的形式存储在分布式的计算机中。2. Spark的LocalVector
2020-10-17 09:29:45
252
原创 spark(57) -- SparkMllib -- SparkMllib的算法的分类和应用场景
1. 机器学习系统设计及架构2. SparkMllib算法对机器学习建模各过程的支持3. SparkMllib分类算法比较及应用场景详解4. SparkMllib回归算法比较及应用场景详解5. SparkMllib聚类算法比较及应用场景详解6. SparkMllib关联算法比较及应用场景详解7. SparkMllib推荐算法比较及应用场景详解
2020-10-17 09:16:54
870
原创 spark(56) -- SparkMllib -- SparkMllib的功能和应用场景
1. SparkMllib简介及功能介绍2. SparkML版本变迁3. SparkMllib架构详解4. 基于RDD的API与基于DataFrame的API区别和应用5. SparkMllib的环境搭建与IDEA环境配置6. RDD、DataSet、Dataframe区别及转化过程
2020-10-17 09:05:03
1517
1
原创 Spark(55) -- StructuredStreaming -- Continuous Processing
1. 连续处理概述2. 编程实现3. 支持查询4. 附录:Maven 依赖
2020-10-16 15:17:44
424
原创 Spark(54) -- StructuredStreaming -- Streaming Deduplication(流去重)
Structured Streaming可以使用deduplication对有无Watermark的流式数据进行去重操作对网站用户日志数据,按照userId和eventType去重统计
2020-10-16 15:10:19
341
原创 Spark(53) -- StructuredStreaming -- 事件时间窗口分析
1. 时间概念2. event-time 窗口分析3. event-time 窗口生成4. 延迟数据处理 4.1 延迟数据 4.2 Watermarking 水位 4.3 官方案例演示
2020-10-16 15:05:09
1627
原创 Spark(52) -- StructuredStreaming -- 模拟物联网设备数据分析
1. 设备监控数据2. 基于DataFrame分析3. 基于SQL分析
2020-10-16 14:45:34
261
原创 Spark(51) -- StructuredStreaming集成 Kafka
1. Kafka 数据消费2. Kafka 数据源3. Kafka 接收器 3.1 配置说明 3.2 实时数据ETL架构 3.3 模拟基站日志数据 3.4 实时增量ETL4. Kafka 特定配置
2020-10-16 12:59:07
296
原创 Spark(50) -- StructuredStreaming -- Streaming Queries
1. 输出模式2. 查询名称3. 触发间隔4. 检查点位置5. 输出终端(Sinks)6. 容错语义
2020-10-14 20:40:06
248
原创 Spark(49) -- Structured Streaming -- Input Sources 输入源
1. DataStreamReader 接口2. 文件数据源3. Rate source
2020-10-14 19:49:01
186
原创 Spark(48) -- Structured Streaming
Structured Streaming、1. Structured Streaming不足2. Structured Streaming 概述3. 入门案例:WordCount
2020-10-14 19:27:21
398
原创 Spark(47) -- SparkStreaming的容错
1. 检查点机制2. 驱动器程序容错3. 工作节点容错4. 接收器容错5. 处理保证
2020-10-14 18:36:24
188
原创 Spark(46) -- SparkStreaming整合kafka数据源
1. 回顾 Kafka2. 集成方式3. 两种方式区别(Receiver和Direct)4. 整合Kafka两种模式说明5. [了解]Apache Kafka数据源0.8版本对接方式6. [掌握]Apche kafka数据源0.10版本对接7. 偏移量管理(MySQL 存储偏移量)
2020-10-13 17:39:42
389
原创 Spark(45) -- SparkStreaming -- SparkStreaming高级数据源之flume数据源
flume数据源 1. Poll方式 2. push方式
2020-10-12 22:59:46
398
原创 Spark(44) -- SparkStreaming -- SparkStreaming数据源
1. 基本数据源2. 文件数据源3. 自定义数据源4. RDD队列
2020-10-12 22:44:24
366
原创 Spark(42) -- SparkStreaming -- reduceByKeyAndWindow 函数详解
1. 图解2. 代码演示3. 执行步骤4. window 函数补充(窗口函数)5. 集成 SparkSQL补充5.1 案例:仅统计处理时间内数据5.2 有状态统计
2020-10-12 22:32:56
461
原创 Spark(41) -- SparkStreaming -- mapWithState函数(状态更新函数,返回变化的数据)
mapWithState函数全局统计详解
2020-10-12 21:13:27
374
原创 Spark(40) -- SparkStreaming -- UpdateStateByKey实现批次数据统计结果累加
1. 问题解决每个批次的单词次数统计出来后结果累加问题,使用updateStateByKey(func)来更新状态.2. 代码演示3. 执行步骤
2020-10-12 20:48:57
475
原创 Spark(38) -- SparkStreaming -- DStream案例操作、应用监控及Streaming工作原理
1. wordcount案例2. Streaming 工作原理
2020-10-12 20:36:49
297
原创 Spark(37) -- Spark Streaming -- DStream(Discretized Stream)及DStream相关操作
1. 什么是DStream2. DStream相关操作2.1 算子汇总2.2 Transformations on DStreams2.3 Output Operations on DStreams2.4 StreamingContext对象2.5 编写代码思路
2020-10-08 08:15:49
226
原创 Spark(36) -- Spark Streaming原理与架构
1. Spark Streaming原理2. Spark Streaming计算流程3. Spark Streaming实时性4. Spark的架构
2020-10-08 08:15:24
230
1
原创 Spark(35) -- SparkStreaming -- 概述
1. Streaming 应用场景2. Lambda 架构3. Streaming 计算模式4. SparkStreaming 计算思想5. 什么是Spark Streaming6. 为什么要学习Spark Streaming7. SparkStreaming与Storm的对比
2020-10-07 19:24:25
635
原创 Spark(32) --Spark SQL补充 -- 聚合
1. groupBy2. 多维聚合3. rollup 操作符4. 使用 rollup 完成 pm 值的统计5. cube6. SparkSQL 中支持的 SQL 语句实现 cube 功能7. RelationalGroupedDataset对象
2020-10-07 11:10:01
219
原创 Spark(31) -- Dataset (DataFrame) 的基础操作补充
1. 有类型转换2. 无类型转换3. Column对象4. 缺失值处理(丢弃包含 null 和 NaN 的行、填充包含 null 和 NaN 的列)4.1 如何使用 SparkSQL 处理异常字符串
2020-10-07 10:56:22
239
原创 Spark(30) -- Spark SQL中更多Parquet文件读写(scala)
1. 什么时候会用到 Parquet ?2. 使用代码读写 Parquet 文件3. 写入 Parquet 的时候可以指定分区4. 分区发现5. SparkSession 中有关 Parquet 的配置
2020-10-07 10:28:03
818
原创 Spark(29) -- SparkSQL底层如何执行及分布式SQL引擎
1. RDD 和 SparkSQL 运行时的区别2. Catalyst3. 分布式SQL引擎
2020-10-07 10:15:58
406
原创 Spark(27) -- SparkSql的分析函数(scala版)
1. 案例需求分析2. 开创函数(聚合开窗函数、排序开窗函数-ROW_NUMBER、RANK、DENSE_RANK、NTILE分组排名)3. scala代码演示
2020-10-07 09:51:10
244
原创 Spark(26) -- SparkSQL整合hive以及sparkSQL使用
1. SparkSQL整合Hive2. IDEA整合Hive实战[同上]3. SparkSQL使用
2020-10-07 09:25:12
380
原创 Spark(25) -- Spark SQL读取数据(mysql、json、parquet、csv、普通文本)
1. SparkSql从MySQL中加载数据【了解】2. 通过spark-shell运行加载mysql当中的数据【了解】3. SparkSql将数据写入到MySQL中【了解】4. Spark SQL多数据源交互【掌握】
2020-10-06 20:04:40
354
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人
RSS订阅