心脏病数据集Spark-Scala分析

随着心脏病患者的逐年增加,我们运用有效的知识来分析统计心脏病与各数据指标的关系,来减少患有心脏病的风险提示:以下是本篇文章正文内容,下面案例可供参考Scala是一门多范式的、纯粹的面向对象函数式编程语言。由于Scala文件(.scala)可被编译成Java字节码,所以scala程序可以由JVM加载并运行。由于Scala编译后得到Java字节码,所以Scala和Java本质上是一个东西,Scala和Java类可以相互调用。
摘要由CSDN通过智能技术生成


前言

  随着心脏病患者的逐年增加,我们运用有效的知识来分析统计心脏病与各数据指标的关系,来减少患有心脏病的风险


提示:以下是本篇文章正文内容,下面案例可供参考

一、Sprak是什么?

spark官网Apache Spark™ - Unified Engine for large-scale data analytics

Spark是一种快速、通用、可扩展的大数据分析引擎,2009年诞生于加州大学伯克利分校AMPLab,2010年开源,2013年6月成为Apache孵化项目,2014年2月成为Apache顶级项目。目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含SparkSQL、SparkStreaming、GraphX、MLlib等子项目,Spark是基于内存计算的大数据并行计算框架。Spark基于内存计算,提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性,允许用户将Spark部署在大量廉价硬件之上,形成集群。Spark得到了众多大数据公司的支持,这些公司包括Hortonworks、IBM、Intel、Cloudera、MapR、Pivotal、百度、阿里、腾讯、京东、携程、优酷土豆。当前百度的Spark已应用于凤巢、大搜索、直达号、百度大数据等业务;阿里利用GraphX构建了大规模的图计算和图挖掘系统,实现了很多生产系统的推荐算法;腾讯Spark集群达到8000台的规模,是当前已知的世界上最大的Spark集群。
————————————

二、Scala介绍与安装

1.Scala介绍

Scala是一门多范式的、纯粹的面向对象函数式编程语言。由于Scala文件(.scala)可被编译成Java字节码,所以scala程序可以由JVM加载并运行。

由于Scala编译后得到Java字节码,所以Scala和Java本质上是一个东西,Scala和Java类可以相互调用

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')
import  ssl
ssl._create_default_https_context = ssl._create_unverified_context

2.Windows安装Scala

1.将scala-2.11.12.zip解压到某个路径

2.配置SCALA_HOME和path环境变量

验证是否部署成功:

出现下面一串说明安装成功

三.IDEA创建普通的scala项目

1.安装scala插件

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,您的问题是如何生成数据集并用Spark进行分析。以下是一些指导: 1. 生成数据集 您可以使用随机数生成器或者从外部源获取数据来生成数据集。例如,您可以使用Scala的Random类生成随机数来生成数据集。如果您需要大量数据,可以使用分布式生成器如Faker或DataGen。 2. 用Spark-Scala进行分析 一旦您有数据集,您可以使用Spark-Scala将其读取为RDD(弹性分布式数据集)。RDD是Spark的基本数据类型之一,它是一个分布式的、可缓存的、不可变的数据集。随后,您可以使用Spark的Dataframe API或SQL API将RDD转换为Dataframe以进行DSL操作或SQL操作。 以下是一个示例代码段: ``` import org.apache.spark.sql.SparkSession val spark = SparkSession.builder .appName("example") .master("local[*]") .getOrCreate() val rdd = spark.sparkContext.parallelize(Seq( ("Alice", 25), ("Bob", 30), ("Charlie", 35), ("Dave", 40) )) val df = rdd.toDF("name", "age") df.show() ``` 3. 存储到HDFS 一旦您完成了分析,您可以将结果存储到HDFS中。您可以使用Hadoop API或Spark的saveAsTextFile方法将Dataframe存储为文本文件。以下是一个示例代码段: ``` df.write.text("hdfs://localhost:9000/output") ``` 4. 使用Spark Streaming进行监控 最后,您可以使用Spark Streaming对数据进行监控。Spark Streaming是Spark的流处理库,它可以让您实时处理数据。您可以使用Spark Streaming的DStream API将数据流转换为RDD或Dataframe,并在其中执行操作。 以下是一个示例代码段: ``` import org.apache.spark.streaming.{Seconds, StreamingContext} val ssc = new StreamingContext(spark.sparkContext, Seconds(1)) val lines = ssc.socketTextStream("localhost", 9999) val words = lines.flatMap(_.split(" ")) val wordCounts = words.map(word => (word, 1)).reduceByKey(_ + _) wordCounts.print() ssc.start() ssc.awaitTermination() ``` 这个示例代码段将从本地套接字9999读取文本流,并对其进行单词计数。您可以根据需要修改此代码段以适应您的数据流和操作。 希望这些指导有所帮助!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值