Spark生态体系
文章平均质量分 90
DougLeaMrConcurrency
内推阿里巴巴、蚂蚁集团,校招社招都可以,有需要推荐的请私聊我。
展开
-
电商推荐系统论文:基于Spark机器学习的电商推荐系统的设计与实现,大数据电商推荐系统毕设论文,Spring MLlib电商推荐系统
毕 业 设 计(论 文)题 目: 基于Spark机器学习的电商推荐系统的设计与实现这是我去年本科毕业时做的毕业设计论文,全文三万多字,知网查重对重复率1%,由于本科论文不会被发表到知网上,再加上我已毕业近一年,现在将论文发表到CSDN。如有需要做毕设论文可引用本文对内容,先到先得(内容纯原创,少有重复)。由于作者对水平有限,文章中难免有错误对内容或作者对相关技术有错误对见解,望读者予以谅解,谢谢!接上篇文章:电商推荐系统(下):实时推荐服务、实时框架、实时推荐算法、获取用户的K次...原创 2021-03-10 22:20:41 · 20212 阅读 · 39 评论 -
Json解析:解析json中的子json得到数组,将大包含多个子json的json解析成json集合,使用alibaba.fastjson解析json,获取json串中的数组,并以对象数组的形式返回
在企业大数据项目中,我们经常会遇到这样的需求:给一个单行json,里面包含多个同级别的小json,需要得到所有的小json。比如,大json为:{"Records":[{"name":"a"},{"name":"b"},{"name":"c"},{"name":"d"}]}需要得到json数组:{"name":"a"}{"name":"b"}{"name":"c"}{...原创 2020-01-31 23:41:10 · 1733 阅读 · 0 评论 -
Spark图解(复习):Hadoop与Spark发展史,WordCount,Yarn部署源码,组件通信&RPC任务调度,RDD及算子,Driver&Executor,Core与Streaming图解
本文用于复习Spark用,初学者看不懂主要内容spark 历史spark WordCountspark Yarn部署流程spark Yarn部署流程源码spark 源码中特殊的类spark 组件通信&RPCspark 任务调度spark RDDspark RDD算子spark Driver&Executorspark Partition&Tasks...原创 2019-09-21 21:27:40 · 164 阅读 · 0 评论 -
Spark内核解析:Driver与Executor,spark-yarn模式,通讯架构,调度优化策略,spark-shuffle解析,SortShuffle,spark内存管理,核心组件解析,内核源码
文章目录Spark 内核概述1.1 Spark核心组件回顾1.1.1 Driver1.1.2 Executor1.2 Spark通用运行流程概述Spark 部署模式2.1 Standalone模式运行机制2.1.1 Standalone Client模式2.1.2 Standalone Cluster模式2.2 YARN模式运行机制2.2.1 YARN Client模式2...原创 2019-09-21 20:53:14 · 1408 阅读 · 0 评论 -
SparkStreaming:SparkStreaming简介及架构,WordCount案例,Dstream入门,文件及自定义数据源,Kafka数据源(重点),DStream创建转换输出,状态转化操作
文章目录第1章 Spark Streaming概述1.1 Spark Streaming是什么1.2 Spark Streaming特点1.3 SparkStreaming架构第2章 Dstream入门2.1 WordCount案例实操2.2 WordCount解析第3章 Dstream创建3.1文件数据源3.1.1 用法及说明3.1.2 案例实操3...原创 2019-09-19 20:26:50 · 648 阅读 · 0 评论 -
SparkSQL:SparkSQL简介,SparkSQL编程,DataFrame和DataSet与RDD之间转换,用户自定义函数,SparkSQL数据源,连接JDBC与Hive,SparkSQL项目
文章目录:第1章 Spark SQL概述1.1 什么是Spark SQL1.2 Spark SQL的特点1.3 什么是DataFrame1.4 什么是DataSet第2章 SparkSQL编程2.1 SparkSession新的起始点2.2 DataFrame2.2.1 创建2.2.2 SQL风格语法(主要)2.2.3 DSL风格语法(次要)2.2....原创 2019-09-19 19:19:19 · 773 阅读 · 0 评论 -
SparkCore进阶:键值对RDD数据分区器,Hash与Ranger自定义分区,文件类数据读取与保存,文件系统类数据库数据读取与保存,RDD编程进阶,累加器,广播变量(调优策略),RDD相关概念关系
接上篇文章第2章2.8:SparkCore之行动算子:Action算子与案例,RDD中的函数传递,方法与属性的传递,RDD依赖关系,Lineage,宽依赖与窄依赖,DAG,任务的划分,RDD缓存,RDD CheckPoint第3章 键值对RDD数据分区器3.1 获取RDD分区3.2 Hash分区3.3 Ranger分区3.4 自定义分区第4章 数据读取与保存4.1 文件...原创 2019-09-18 15:09:44 · 901 阅读 · 0 评论 -
SparkCore之行动算子:Action算子与案例,RDD中的函数传递,方法与属性的传递,RDD依赖关系,Lineage,宽依赖与窄依赖,DAG,任务的划分,RDD缓存,RDD CheckPoint
接上篇文章第2章2.3.4:SparkCore之转换算子:RDD概述属性介绍,RDD特点,RDD编程模型,RDD的创建与转换, transformation转换算子Value类型与双value类型交互,key-value类型算子文章目录2.4 Action2.4.1 reduce(func)案例2.4.2 collect()案例2.4.3 count()案例2.4.4 fi...原创 2019-09-18 14:56:10 · 487 阅读 · 0 评论 -
SparkCore之转换算子:RDD概述属性介绍,RDD特点,RDD编程模型,RDD的创建与转换, transformation转换算子Value类型与双value类型交互,key-value类型算子
文章目录第1章 RDD概述1.1 什么是RDD1.2 RDD的属性1.3 RDD特点1.3.1 分区1.3.2 只读1.3.3 依赖1.3.4 缓存1.3.5 CheckPoint第2章 RDD编程2.1 编程模型2.2 RDD的创建2.2.1 从集合中创建2.2.2 由外部存储系统的数据集创建2.3 RDD的转换(面试开发重点)...原创 2019-09-16 15:56:39 · 966 阅读 · 0 评论 -
Spark基础:Spark简介及特点,运行模式,安装Spark,Driver与Executor,Local模式,Standalone模式,Yarn模式,Mesos模式,WordCount案例,HA配置
本文目录第1章 Spark概述1.1 什么是Spark1.2 Spark内置模块1.3 Spark特点第2章 Spark运行模式2.1Spark安装地址2.2 重要角色2.2.1 Driver(驱动器)2.2.2 Executor(执行器)2.3 Local模式2.3.1 概述2.3.2 安装使用2.4 Standalone模式2.4.1 ...原创 2019-09-15 16:11:32 · 1578 阅读 · 0 评论