spark
文章平均质量分 78
AI-Rui
对计算有强烈热爱的同学
展开
-
小白实战学习Spark02----bug汇总
value $ is not a menber of StringContextscala中的Seq 和 Set 的区别scala中的_和_*的区别原创 2020-05-29 10:50:26 · 200 阅读 · 0 评论 -
小白实战学习Spark02-用决策树算法预测森林植被
决策树算法预测森林植被2.1 回归简介2.2 向量与特征2.3 样本训练2.4 决策树和决策森林2.5 Covtype数据集2.6 准备数据2.7 第一棵决策树数据预处理构建第一个决策树分类模型2.8 决策树的超参数2.1 回归简介回归与分类回归是 预测一个数值型数量分类是 预测标号或者类别监督学习:两者都需要从一组输入和输出中学习预测规则(即需要告诉其问题与答案)2.2 向量与特征特征:也叫维度数值型特征:可以用数值进行量化的特征,并且对这些特征排序是有意义的类别型特征:不原创 2020-05-27 11:20:50 · 1658 阅读 · 0 评论 -
小白实战学习Spark01----bug汇总
bug汇总SparkContext、SparkConf和SparkSession的初始化Spark运行报错:无法解析重载方法“agg”若 出现 package macros contains object and package with same name: blackbox one of them needs to be removed from classpath此类的错误,是因为包冲突,把pom.xml文件重新搞下就好了【Scala】使用Option、Some、None,避免使用null原创 2020-05-25 10:36:23 · 299 阅读 · 0 评论 -
小白实战学习Spark01-音乐推荐和Audioscrobbler数据集
音乐推荐和Audioscrobbler数据集1.1 数据集1.2 交替最小二乘推荐算法1.1 数据集该数据集属于 隐式反馈数据user_arist_data.txt:包括141000个用户和160万个艺术家,记录了约2420万条用户播放艺术家歌曲的信息,其中包括播放次数信息artist_data.txt:包括每个艺术家的ID和对应的名字。artist_alias.txt:目的是为了将拼写错误的艺术家ID或ID变体对应到该艺术家的规范ID。1.2 交替最小二乘推荐算法协同过滤算法:根据两个原创 2020-05-25 10:35:46 · 1407 阅读 · 0 评论 -
小白学习Spark07-Spark MLlib
Spark MLlib7.1 概述7.2 系统要求7.3 机器学习基础7.4 数据类型7.4.1 操作向量7.5 算法7.5.1 特征提取7.5.2 统计7.5.3 分类与回归7.5.4 聚类7.5.5 协同过滤与推荐7.5.6 降维7.5.7 模型评估7.6 一些提示与性能考量7.6.1 准备特征7.6.2 配置算法7.6.3 缓存RDD以重复使用7.6.4 识别稀疏程度7.6.5 并行度8.总结7.1 概述设计理念:把数据以RDD的形式表示,然后再分布式数据集上调用各种算法;即RDD上一系列可供调原创 2020-05-20 22:00:14 · 399 阅读 · 0 评论 -
小白学习Spark06-Spark Streaming
Spark Streaming6.1 简介6.2 架构与抽象6.3 转化操作6.3.1 无状态转化操作6.3.2 有状态转化操作6.3.2.1 基于窗口的转化操作6.3.2.2 UpdateStateByKey 转化操作6.4 输出操作6.5 输入源6.5.1 核心数据源6.5.2 附加数据源6.5.3 多数据源与集群规模6.6 24/7不间断运行6.6.1 检查点机制6.6.2 驱动器程序容错6.6.3 工作节点容错6.6.4 接收器容错6.6.5 处理保证6.7 Streaming用户节点6.8 性能考原创 2020-05-19 11:43:15 · 396 阅读 · 0 评论 -
小白学习Spark05-Spark SQL
Spark SQL5.1 连接Spark SQL5.2 在应用中使用Spark SQL5.2.1 初始化Spark SQL5.2.2 基本查询示例5.2.3 SchemaRDD5.2.4 缓存Spark SQL:是Spark用来操作结构化和半结构化数据的接口Spark SQL三大功能Spark SQL可以从各种结构化数据源(如JSON、Hive、Parquet等)中读取数据Spark SQL支持在Spark程序内使用SQL语句进行数据查询,也支持从外部工具(例如Tableau)通过标准数据库连接原创 2020-05-16 14:29:41 · 334 阅读 · 0 评论 -
小白学习Spark04-Spark调优与调试
Spark调优与调试4.1 使用SparkConf配置Spark4.2 Spark执行的组成部分:作业、任务和步骤4.3 查找信息4.3.1 Spark网页用户界面4.3.2 驱动器进程和执行器进程的日志4.1 使用SparkConf配置Spark三种方式配置SparkConf的值在代码中修改通常可以通过修改Spark应用的运行时配置选项对Spark进行性能调优,在Spark中最主要的配置机制是通过SparkConf类对Spark进行配置。 //在Scala中使用SparkConf创建一原创 2020-05-15 14:05:35 · 224 阅读 · 0 评论 -
小白学习Spark03-在集群上运行Spark
03 在集群上运行Spark3.1 Spark运行架构3.1.1 驱动器节点3.1.2 执行器节点3.1.3 集群管理器3.1.4 启动Spark程序3.1.5 小结3.2 使用spark-submit部署应用3.3 打包代码与依赖3.3.1 使用Maven构建的用JAVA编写的Spark应用3.3.2 使用sbt构建的用Scala编写的Spark应用3.3.2 依赖冲突3.4 Spark应用内与应用间调度3.5 集群管理器3.5.1 独立集群管理器3.5.2 Hadoop YARN3.5.2 Apache原创 2020-05-13 23:22:36 · 284 阅读 · 0 评论 -
小白学习Spark02-SparkCode(下)
四、SparkCode 进阶4. 1 共享变量4.1.1 累加器4.1.2 广播变量4. 2 基于分区进行操作4. 3 与外部程序间的管道4. 4 数值RDD的操作4. 1 共享变量共享变量:是一种可以在Spark任务中使用的特殊类型的变量两种类型的共享变量累加器(accumulator):累加器用来对信息进行聚合广播变量(broadcast variable):广播变量用来高效分发较大的对象通常在向Spark传递函数时,比如使用map()函数或者filter()传条件时,可以使用驱动器原创 2020-05-12 16:42:00 · 301 阅读 · 0 评论 -
小白学习Spark02-SparkCode(上)
文章目录一、RDD编程1.1 RDD基础1.2 创建RDD1.3 RDD操作1.3.1 转化操作1.3.2 行动操作1.3.3 惰性求值1.4 向Spark传递函数1.4.1 Scala1.5 常见的转换操作和行动操作一、RDD编程1.1 RDD基础RDD:是一个 不可变 的 分布式 对象集合。每个RDD都被分为多个分区,这些分区运行在集群上的不同节点上。两种方法创建RDD:1).读取一个外部数据集、2).在驱动程序中分发驱动器程序中的对象集合RDD支持两种类型的操作: 1).转换操作(tran原创 2020-05-11 10:29:07 · 665 阅读 · 0 评论 -
小白学习Spark01-配置环境(从centos7安装——Spark集群高可用)
文章目录Spark集群高可用01.配置Linux操作系统集群(Centos7)(1)准备原料(2)安装Centos7(3)构建NAT网络集群02.安装Spark集群(1)准备原料(2)安装jdk和spark(3)安装Spark集群03.Spark集群高可用(1)准备原料(2)安装和配置zookeeper(3)配置Spark集群高可用Spark集群高可用01.配置Linux操作系统集群(Cent...原创 2020-03-27 23:46:38 · 311 阅读 · 0 评论