spark
文章平均质量分 91
魔仙大佬
这个作者很懒,什么都没留下…
展开
-
java.lang.VerifyError: class scala.collection.mutable.WrappedArray overrides final method(已解决)
java.lang.VerifyError: class scala.collection.mutable.WrappedArray overrides final method toBuffer.()Lscala/collection/mutable/Buffer;出现这个原因是因为spark版本与scala-sdk版本不一致导致的解决办法:首先找到和自己spark对应的scala-sdk版本,我的spark是2.1,因此对应2.11然后去官网下载对应的zip包https://www.scala原创 2020-10-26 23:52:34 · 2134 阅读 · 0 评论 -
PySpark入门---机器学习实战:建立鸢尾属植物种的ML分类模型、建立ML回归模型并使用定义的特征预测电厂的发电量(使用ML库)
使用PySpark的机器学习1.创建特征2. 使用字符串索引3.分类算法*1. 贝叶斯分类器**2. 多层感知器分类**3.决策树分类*4.回归模型1.线性模型2. 决策树回归*3. 梯度增强决策树*分类和回归ML库在Spark的帮助下,从UCI机器学习知识库开源数据集。iris数据集(https://archive.ics.uci.edu/ml/machine-learning-databases/iris)电厂数据(https://archive.ics.uci.edu/ml/machine-le原创 2020-05-27 12:55:11 · 1045 阅读 · 0 评论 -
pyspark入门---机器学习实战预测婴儿出生率(二)使用ML库
机器学习实战预测婴儿出生率1.加载数据2.创建转换器3.创建预测器4.创建管道5.训练模型6.使用BinaryClassificationEvaluator对模型评估7.模型保存与调用在上一文中,主要对Spark MLlib机器学习库使用流程进行了介绍。从搭建环境开始,然后加载数据,探索数据,直到进行模型的训练与评估,最终进行未知数据的预测,即预测婴儿生存机会本文则来介绍如何使用ML机器学习库来实战ML!同样使用上一节的数据集来演示ML的构建过程。再次尝试预测婴儿的生存几率。**Pipelin原创 2020-05-13 08:46:45 · 2583 阅读 · 1 评论 -
pyspark入门---机器学习实战预测婴儿出生率(一)使用MLlib库
机器学习实战预测婴儿出生率1.加载数据2.数据的探索:特征相关性3.统计校验4.创建最后的待训练数据集5.划分训练集和测试集6.开始建模7.Logistic 回归模型8.选取出最具代表性的分类特征9.随机森林模型机器学习是通过算法对训练数据构建出模型并对模型进行评估,评估的性能如果达到要求就拿这个模型来测试其他的数据,如果达不到要求就要调整算法来重新建立模型,再次进行评估,如此循环往复,最终获得满意的经验来处理其他的数据的过程。简单点讲,机器学习就是通过一定的模型,让计算机可以从大量的数据中学习到相关的原创 2020-05-13 07:59:45 · 3955 阅读 · 2 评论 -
pyspark入门---通过kmeans分析出租车数据并调用百度API进行可视化
通过kmeans分析出租车数据并进行可视化(1)数据准备(2)创建dataframe(3)kmeans聚类分析(4)调用百度API进行数据可视化(1)数据准备采用数据为出租车载客时的GPS记录数据集,数据格式为CSV,CSV格式是数据分析中常见的一种数据格式。CSV(Comma-Separated Values) 即逗号分隔值,文件以文本的方式存储表格数据(包含数字和文本)。其中每一行代表一条记录,每条记录被逗号分隔为字段,并且每条记录都有同样的字段序列。本实验一共181230条记录,具体文件格式见下表原创 2020-05-11 22:44:06 · 3541 阅读 · 8 评论 -
pyspark入门---通过协同过滤算法推荐电影
数据集是Movielens官网的ml-100k数据,下载地址https://grouplens.org/datasets/movielens/用jupyter实现比较好from pyspark.sql import SparkSessionuser_df=spark.read.text('data/u.user')user_df.show(10)##为用户数据添加 schemafrom pyspark import Rowuser_rdd=user_df.rdd.map(lambda原创 2020-05-10 23:11:52 · 2276 阅读 · 3 评论 -
pyspark入门---sparksql练习
sparksql实验1.实验数据说明:2.实验要求3.实验内容1.实验数据说明:Student字段说明:字段名类型备注snoint学号sclassint班级号snameDate姓名sgenderint性别sageint年龄Teacher字段说明:字段名类型备注tnoint教工号tnameint姓名tsexint性别tageint年龄Course字段说明:字段原创 2020-05-10 21:57:08 · 1399 阅读 · 4 评论