自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+

erainm

从Java到大数据,尽力写的详细一些,大家一起学习,愿我的付出不辜负大家的关注,加油!!!

  • 博客(198)
  • 资源 (3)
  • 收藏
  • 关注

原创 任务调度之Oozie详解

1. Oozie的特点2. 为什么选择Oozie3. Oozie-Azkaban详细对比4. 主要概念5. Job组成6. Workflow介绍7. Coordinator介绍8. Bundle介绍9. 案例演示10. Oozie工具类代码开发11. Oozie整合SpringBoot编写任务调度【测试】

2020-10-20 12:33:42 13772 1

原创 mac版VMWare的vmnet8默认网关和ip配置

sudo vim /Library/Preferences/VMware\ Fusion/networking“vmnet8默认网关”配置文件sudo vim /Library/Preferences/VMware\ Fusion/vmnet8/nat.confcentos6配置vi /etc/udev/rules.d/70-persistent-net.rules,删除eth0有关内容,修改eth1为eth0, vim /etc/sysconfig/network-scripts/ifc

2020-10-18 19:45:31 2616 2

原创 机器学习基础

机器学习和大数据的区别和联系1. 机器学习引入2. 机器学习三次浪潮3. 人工智能领域基础概念区别4. 什么是机器学习5. 基于规则学习和基于模型的学习6. 机器学习数据的基本概念7. 机器学习分类及场景应用8. 如何理解机器学习三要素9. 构建机器学习模型10. 模型选择11. 经验风险与结构风险12. 正则化13. 交叉验证14. 机器学习库基础

2020-10-18 15:30:05 2383 3

原创 spark(61) -- SparkMllib -- 基于SparkMllib的数据清洗项目实践

1. 获取数据2. 用户数据的EDA分析实践3. 业务数据的EDA分析实践4. 评分数据的EDA分析实践5. 数据的处理及转换分析实践6. 数值型和类别型数据的处理方案及实践7. 派生特征数据的处理方法及实践8. 文本特征处理方法及实践9. 正则化特征处理方法及实践10. TF-IDF和Word2Vec提取特征实践11. 总结

2020-10-17 11:36:39 659

原创 spark(60) -- SparkMllib -- 基于SparkMllib数据特征工程构建过程

1. SparkMllib特征工程构建过程2. SparkMllib特征提取操作实践3. SparkMllib特征转换操作详解及实践4. SparkMllib特征选择操作及实践5. 项目案例-业务数据统计分析实践6. 项目案例-Iris鸢尾花数据分析案例实践7. 项目案例Homeprise数据分析实践

2020-10-17 10:34:15 685

原创 spark(59) -- SparkMllib -- 基于SparkMllib的统计特征实践

1. SparkMllib的SummaryStatistic摘要统计2. SparkMllib的Correlation相关系数详解及实战3. SparkMllib的HypothesisTesting原理及实战4. SparkMllib的随机数生成时间

2020-10-17 09:40:52 244

原创 spark(58) -- SparkMllib -- SparkMllib的基础数据类型

1. SparkMllIb数据类型简介 MLLIB支持很多种机器学习算法中类型,主要有向量和矩阵两种类型。有下面四种分类:(1)Local vector本地向量集,主要向Spark提供一组可进行操作的数据集合。(2)Labeled Point向量标签,让用户能够分类不同的数据集合。(3)Local matrix本地矩阵,将数据集合以矩阵形式存储在本地计算机中。(4)Distribute matrix分布式矩阵。将数据集以矩阵的形式存储在分布式的计算机中。2. Spark的LocalVector

2020-10-17 09:29:45 252

原创 spark(57) -- SparkMllib -- SparkMllib的算法的分类和应用场景

1. 机器学习系统设计及架构2. SparkMllib算法对机器学习建模各过程的支持3. SparkMllib分类算法比较及应用场景详解4. SparkMllib回归算法比较及应用场景详解5. SparkMllib聚类算法比较及应用场景详解6. SparkMllib关联算法比较及应用场景详解7. SparkMllib推荐算法比较及应用场景详解

2020-10-17 09:16:54 870

原创 spark(56) -- SparkMllib -- SparkMllib的功能和应用场景

1. SparkMllib简介及功能介绍2. SparkML版本变迁3. SparkMllib架构详解4. 基于RDD的API与基于DataFrame的API区别和应用5. SparkMllib的环境搭建与IDEA环境配置6. RDD、DataSet、Dataframe区别及转化过程

2020-10-17 09:05:03 1517 1

原创 Spark(55) -- StructuredStreaming -- Continuous Processing

1. 连续处理概述2. 编程实现3. 支持查询4. 附录:Maven 依赖

2020-10-16 15:17:44 424

原创 Spark(54) -- StructuredStreaming -- Streaming Deduplication(流去重)

Structured Streaming可以使用deduplication对有无Watermark的流式数据进行去重操作对网站用户日志数据,按照userId和eventType去重统计

2020-10-16 15:10:19 341

原创 Spark(53) -- StructuredStreaming -- 事件时间窗口分析

1. 时间概念2. event-time 窗口分析3. event-time 窗口生成4. 延迟数据处理 4.1 延迟数据 4.2 Watermarking 水位 4.3 官方案例演示

2020-10-16 15:05:09 1627

原创 Spark(52) -- StructuredStreaming -- 模拟物联网设备数据分析

1. 设备监控数据2. 基于DataFrame分析3. 基于SQL分析

2020-10-16 14:45:34 261

原创 Spark(51) -- StructuredStreaming集成 Kafka

1. Kafka 数据消费2. Kafka 数据源3. Kafka 接收器 3.1 配置说明 3.2 实时数据ETL架构 3.3 模拟基站日志数据 3.4 实时增量ETL4. Kafka 特定配置

2020-10-16 12:59:07 296

原创 Spark(50) -- StructuredStreaming -- Streaming Queries

1. 输出模式2. 查询名称3. 触发间隔4. 检查点位置5. 输出终端(Sinks)6. 容错语义

2020-10-14 20:40:06 248

原创 Spark(49) -- Structured Streaming -- Input Sources 输入源

1. DataStreamReader 接口2. 文件数据源3. Rate source

2020-10-14 19:49:01 186

原创 Spark(48) -- Structured Streaming

Structured Streaming、1. Structured Streaming不足2. Structured Streaming 概述3. 入门案例:WordCount

2020-10-14 19:27:21 398

原创 Spark(47) -- SparkStreaming的容错

1. 检查点机制2. 驱动器程序容错3. 工作节点容错4. 接收器容错5. 处理保证

2020-10-14 18:36:24 188

原创 Spark(46) -- SparkStreaming整合kafka数据源

1. 回顾 Kafka2. 集成方式3. 两种方式区别(Receiver和Direct)4. 整合Kafka两种模式说明5. [了解]Apache Kafka数据源0.8版本对接方式6. [掌握]Apche kafka数据源0.10版本对接7. 偏移量管理(MySQL 存储偏移量)

2020-10-13 17:39:42 389

原创 Spark(45) -- SparkStreaming -- SparkStreaming高级数据源之flume数据源

flume数据源 1. Poll方式 2. push方式

2020-10-12 22:59:46 398

原创 Spark(44) -- SparkStreaming -- SparkStreaming数据源

1. 基本数据源2. 文件数据源3. 自定义数据源4. RDD队列

2020-10-12 22:44:24 366

原创 Spark(43) -- SparkStreaming -- 案例:统计一定时间内的热门词汇TopN

1. 需求2. scala代码

2020-10-12 22:35:35 438

原创 Spark(42) -- SparkStreaming -- reduceByKeyAndWindow 函数详解

1. 图解2. 代码演示3. 执行步骤4. window 函数补充(窗口函数)5. 集成 SparkSQL补充5.1 案例:仅统计处理时间内数据5.2 有状态统计

2020-10-12 22:32:56 461

原创 Spark(41) -- SparkStreaming -- mapWithState函数(状态更新函数,返回变化的数据)

mapWithState函数全局统计详解

2020-10-12 21:13:27 374

原创 Spark(40) -- SparkStreaming -- UpdateStateByKey实现批次数据统计结果累加

1. 问题解决每个批次的单词次数统计出来后结果累加问题,使用updateStateByKey(func)来更新状态.2. 代码演示3. 执行步骤

2020-10-12 20:48:57 475

原创 Spark(39) -- SparkStreaming -- 流式应用状态

流式应用状态业务一:无状态Stateless业务二:有状态State

2020-10-12 20:44:19 169

原创 Spark(38) -- SparkStreaming -- DStream案例操作、应用监控及Streaming工作原理

1. wordcount案例2. Streaming 工作原理

2020-10-12 20:36:49 297

原创 Spark(37) -- Spark Streaming -- DStream(Discretized Stream)及DStream相关操作

1. 什么是DStream2. DStream相关操作2.1 算子汇总2.2 Transformations on DStreams2.3 Output Operations on DStreams2.4 StreamingContext对象2.5 编写代码思路

2020-10-08 08:15:49 226

原创 Spark(36) -- Spark Streaming原理与架构

1. Spark Streaming原理2. Spark Streaming计算流程3. Spark Streaming实时性4. Spark的架构

2020-10-08 08:15:24 230 1

原创 Spark(35) -- SparkStreaming -- 概述

1. Streaming 应用场景2. Lambda 架构3. Streaming 计算模式4. SparkStreaming 计算思想5. 什么是Spark Streaming6. 为什么要学习Spark Streaming7. SparkStreaming与Storm的对比

2020-10-07 19:24:25 635

原创 Spark(34) -- Spark SQL补充 -- 窗口函数案例

1. 案例一: 第一名和第二名案例2. 案例二:最优差值案例

2020-10-07 11:42:52 124

原创 Spark(33) -- Spark SQL补充 -- 连接

1. 无类型连接算子join的API2. 连接类型3. 广播连接

2020-10-07 11:30:18 181

原创 Spark(32) --Spark SQL补充 -- 聚合

1. groupBy2. 多维聚合3. rollup 操作符4. 使用 rollup 完成 pm 值的统计5. cube6. SparkSQL 中支持的 SQL 语句实现 cube 功能7. RelationalGroupedDataset对象

2020-10-07 11:10:01 219

原创 Spark(31) -- Dataset (DataFrame) 的基础操作补充

1. 有类型转换2. 无类型转换3. Column对象4. 缺失值处理(丢弃包含 null 和 NaN 的行、填充包含 null 和 NaN 的列)4.1 如何使用 SparkSQL 处理异常字符串

2020-10-07 10:56:22 239

原创 Spark(30) -- Spark SQL中更多Parquet文件读写(scala)

1. 什么时候会用到 Parquet ?2. 使用代码读写 Parquet 文件3. 写入 Parquet 的时候可以指定分区4. 分区发现5. SparkSession 中有关 Parquet 的配置

2020-10-07 10:28:03 818

原创 Spark(29) -- SparkSQL底层如何执行及分布式SQL引擎

1. RDD 和 SparkSQL 运行时的区别2. Catalyst3. 分布式SQL引擎

2020-10-07 10:15:58 406

原创 Spark(28) -- SparkSQL自定义函数(UDF、UDAF、UDTF)

1. UDF实战2. UDAF实战

2020-10-07 09:56:41 796

原创 Spark(27) -- SparkSql的分析函数(scala版)

1. 案例需求分析2. 开创函数(聚合开窗函数、排序开窗函数-ROW_NUMBER、RANK、DENSE_RANK、NTILE分组排名)3. scala代码演示

2020-10-07 09:51:10 244

原创 Spark(26) -- SparkSQL整合hive以及sparkSQL使用

1. SparkSQL整合Hive2. IDEA整合Hive实战[同上]3. SparkSQL使用

2020-10-07 09:25:12 380

原创 Spark(25) -- Spark SQL读取数据(mysql、json、parquet、csv、普通文本)

1. SparkSql从MySQL中加载数据【了解】2. 通过spark-shell运行加载mysql当中的数据【了解】3. SparkSql将数据写入到MySQL中【了解】4. Spark SQL多数据源交互【掌握】

2020-10-06 20:04:40 354

DirectX-Repair

directx修复工具

2024-01-21

SecureFX_9.0.1_(2451.141440)__macwk.dmg

SecureFX_9.0.1_(2451.141440)__macwk.dmg

2021-04-23

Mac版 - SecureCRT_9.0.1_(2451.141440)__macw.dmg

Mac版SecureCRT_9.0.1

2021-04-23

ArcGIS+Engine+C#实例开发教程

为Engine+C#爱好者提供,相互交流

2015-01-04

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除