spark
文章平均质量分 88
温醉否忆
这个作者很懒,什么都没留下…
展开
-
8、鸢尾花预测率 、决策树分类器
实验目的1.掌握逻辑回归与决策树模型模型的原理及使用场景2.掌握pyspark库使用3.掌握模型预测结果保存的方法实验背景下面以鸾尾花数据集(Iris)为例进行分析,Iris 以鸾尾花的特征作为数据来源,数据集包含 150 个数据,分为 3 类,每类 50 个数据,每个数据包含 4 个属性,是在数据挖掘、数据分类中非常常用的测试集、训练集。为了便于理解,这里主要用后两个属性(花瓣的长度和宽度)来进行分类。首先来看一下逻辑回归分类器。逻辑斯蒂回归(Logistic Regression)是统计学习原创 2021-06-04 22:06:32 · 3633 阅读 · 0 评论 -
3、Spark 和 D3.js 分析航班大数据
实验资源1998.csvairports.csv实验环境VMware WorkstationUbuntu 16.04spark-2.4.5scala-2.12.10实验内容“我们很抱歉地通知您,您乘坐的由 XX 飞往 XX 的 XXXX 航班延误。”相信很多在机场等待飞行的旅客都不愿意听到这句话。随着乘坐飞机这种交通方式的逐渐普及,航延延误问题也一直困扰着我们。航班延误通常会造成两种结果,一种是航班取消,另一种是航班晚点。在本次实验中,我们将通过 Spark 提供的 DataFrame原创 2021-05-31 14:04:43 · 3558 阅读 · 4 评论 -
7、预测婴儿生存机会实验
实验资源births_transformed.csv实验环境VMware WorkstationUbuntu 16.04Jupyter NotebookPyspark实验内容读入“births_transformed.csv”, 利用逻辑回归算法生成评估模型,从而预测婴儿的生存机会。在正式开始实验之前,我们先来讲一下ROC曲线:ROC曲线起源于第二次世界大战时期雷达兵对雷达的信号判断。当时每一个雷达兵的任务就是去解析雷达的信号,但是当时的雷达技术还没有那么先进,存在很多噪声(比如一只大鸟原创 2021-05-31 14:43:20 · 683 阅读 · 0 评论 -
6、淘宝双11数据分析与预测
实验环境Java1.8HadoopHiveSparkSqoopEchartsIntellij ideaVMware WorkstationUbuntu 16.04实验内容对文本文件形式的原始数据集进行预处理把文本文件的数据集导入到数据仓库Hive中对数据仓库Hive中的数据进行查询分析使用Sqoop将数据从Hive导入MySQL利用Eclipse搭建动态Web应用利用ECharts进行前端可视化分析利用Spark MLlib进行回头客行为预测原创 2021-05-31 14:41:12 · 8891 阅读 · 2 评论 -
5、电影推荐系统
实验资源u.useru.itemu.data实验环境VMware WorkstationUbuntu 16.04Jupyter NotebookPyspark实验内容本实验使用其中三个文件,用户信息、影片信息、评分数据用户信息 (u.user)用户id年龄性别职业邮政编码影片信息(u.item)影片id影片名称发行日期链接other评分数据(u.data)用户id影片id评分值时间戳(U原创 2021-05-31 14:35:12 · 887 阅读 · 0 评论 -
4、Spark流式计算电商商品关注度
实验环境eclipsespark-2.1.1-bin-hadoop2.7VMware WorkstationUbuntu 16.04实验内容处于网络时代的我们,随着 O2O 的营销模式的流行,越来越多的人开始做起了电商。与此同时也产生了许多网络数据,然而这些数据有什么用呢。比如说一个电商公司可以根据一个商品被用户点击了多少次,用户停留时间是多久,用户是否收藏了该商品。这些都是可以被记录下来的。通过这些数据我们就能分析出这段时间内哪些商品最受普遍人们的关注。同时也可以针对这些数据进行用户商品推荐。原创 2021-05-31 14:28:22 · 889 阅读 · 0 评论 -
2、Kmeans算法处理出租车数据
实验资源taxi.csv实验环境VMware WorkstationUbuntu 16.04Jupyter NotebookPysparkPycharm实验内容现有某地区出租车 GPS 定位数据 taxi.csv,部分数据见下图:130.624806104.136604211846130.624809104.136612211815130.624811104.136587212017130.624811104.13659621191原创 2021-05-31 12:38:00 · 1682 阅读 · 1 评论 -
1、Kmeans 聚类算法评估足球比赛
实验资源data.txt实验环境VMware WorkstationUbuntu 16.04Spark-2.4.5Scala-2.12.10实验内容利用Spark机器学习库中Kmeans算法分析足球赛事实验步骤一、数据集介绍序号国别2006年世界杯2007年亚洲杯2010年世界杯1韩国173152沙特282403卡塔尔509404泰国509505越南505506中国509507原创 2021-05-31 12:21:43 · 1343 阅读 · 0 评论 -
Spark 性能优化
目录一、开发调优原则一:避免创建重复的RDD原则二:尽可能复用同一个RDD原则三:对多次使用的RDD进行持久化原则四:尽量避免使用shuffle类算子原则五:使用map-side预聚合的shuffle操作原则六:使用高性能的算子原则七:广播大变量原则八:使用Kryo优化序列化性能2、资源调优num-executorsexecutor-memoryexecutor-coresdriver-memoryspark.default.parallelismspark.storage.原创 2021-05-16 17:45:42 · 172 阅读 · 0 评论 -
Spark高级认证
一、K-Means聚类算法1、K-Means聚类算法介绍1、算法接受参数k ;然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足∶同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。2、算法思想:以空间中k个点为中心进行聚类,对最靠近他们的对象归类。通过迭代的方法,逐次更新各聚类中心的值,直至得到最好的聚类结果2、K-Means聚类算法步骤1、先从元素集合A中随机取k个元素,作为k个子集各自的重心。2、分别计算剩下的元素到k个子集重心的距离,根据距离将这些元素分别划归到最近原创 2021-05-16 16:25:39 · 449 阅读 · 0 评论