![](https://img-blog.csdnimg.cn/20201014180756780.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
spark
文章平均质量分 80
发量不足
耐心,自信来源于你强大的思想和知识基础
展开
-
[机器学习、Spark]Spark MLlib分类
线性支持向量机在机器学习领域中是一种常见的判别方法,是一一个有监督学习模型,通常用来进行模式识别,分类以及回归分析。通过找到支持向量从而获得分类平面的方法,称为支持向量机。可以非常成功地处理回归(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,并可推广到预测和综合评价等领域,因此可应用于理科、工科和管理等多种学科。逻辑回归又称为逻辑回归分析,它是一个概率模型的分类算法,常用于数据挖掘、疾病自动诊断以及经济预测等领域。逻辑回归和线性回归类似,但它不属于回归分析家族,差异主要是在于变量不同原创 2022-10-23 10:08:22 · 3041 阅读 · 76 评论 -
[机器学习、Spark]Spark MLlib实现数据基本统计
MLlib提供了很多统计方法,包含摘要统计、相关统计、分层抽样、假设检验、随机数生成等统计方法,利用这些统计方法可帮助用户更好地对结果数据进行处理和分析MLlib三个核心功能:1.实用程序:统计方法,如描述性统计、卡方检验、线性代数、模型评估方法等2.数据准备:特征提取、变换、分类特征的散列和一些自然语言处理方法3.机器学习方法:实现了一些流行和高级的回归,分类和聚类算法原创 2022-10-22 09:35:17 · 3438 阅读 · 108 评论 -
[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型
MLlib是Spark提供的可扩展的机器学习库,其特点是采用较为先进的迭代式、内存存储的分析计算,使得数据的计算处理速度大大高于普通的数据处理引擎。MLlib的主要数据类型包括本地向量、标注点、本地矩阵。本地向量和本地矩阵是提供公共接口的简单数据模型,Breeze和Jblas提供了底层的线性代数运算。在监督学习中用标注点类型表示训练样本。原创 2022-10-18 23:11:23 · 3727 阅读 · 110 评论 -
[Spark、hadoop]Spark Streaming整合kafka实战
Kafka是由Apache软件基金会开发的一个开源流处理平台,它使用Scala和Java语言编写,是一个基于Zookeeper系统的分布式发布订阅消息系统,该项目的设计初衷是为实时数据提供一个统一、高通量、低等待的消息传递平台。①、Kafka的众多优点:其优点具体:(1)解耦。Kafka 具备消息系统的优点,只要生产者和消费者数据两端遵循接口约束,就可以自行扩展或修改数据处理的业务过程。(2)高吞吐量、低延迟。即使在非常廉价的机器上,Kafka也能做到每秒处理几十万条消息,而它的延迟最低只有几毫原创 2022-10-14 10:57:40 · 3712 阅读 · 86 评论 -
[Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序
Dstream(Discretized Stream)是Spark Streaming数据的基本传输单位。它表示一个连续的数据流,这个数据流可以是原始的数据输入流,也可以是将原始的数据输入流通过转换生成已处理的数据输入流特点1、Spark Streaming对流数据按秒/分等时间间隔进行微批划分,每个微批就是一个RDD2、DStream由一系列连续的RDD组成,每个RDD都包含来自特定间隔的数据3、DStream本质上就是一系列时间上连续的RDD(DStream = Seq[RDD])原创 2022-10-12 10:29:10 · 6985 阅读 · 63 评论 -
[Spark、hadoop]spark Streaming的核心DStream
1.SparkStreaming提供了一个高级抽象的流,即DStream(离散流)。2.DStream的内部结构是由一系列连续的RDD组成,每个RDD都是一小段由时间分隔开来的数据集。原创 2022-10-03 14:12:39 · 2249 阅读 · 114 评论 -
Kafka集群部署与测试
Kafka集群部署与测试安装Kafka①、Alt+P 拷贝安装包 cd /opt/moduletar -zxvf /opt/software/kafka_2.11-2.0.0.tgz -C /opt/module/②、修改配置文件vi /opt/module/kafka_2.11-2.0.0/config/server.properties 增加环境变量原创 2022-09-12 19:22:34 · 1934 阅读 · 66 评论 -
Kafka分布式发布订阅消息系统
大数据系统面临的首要困难是海量数据之间该如何进行传输。Kafka、RabbitMQ、ActiveMQ等,Kafka 是专门为分布式高吞吐量系统而设计开发的,它非常适合在海量数据集的应用程序中进行清息传递。Kafka是由Apache软件基金会开发的一个开源流处理平台,它使用Scala和Java语言编写,是一个基于Zookeeper系统的分布式发布订阅消息系统,该项目的设计初衷是为实时数据提供一个统一、高通量、低等待的消息传递平台。原创 2022-09-10 22:54:29 · 1971 阅读 · 12 评论 -
Spark SQL操作数据源
一、操作MySql二、操作HIVE数据库①准备环境②创建表类型③插入数据④Spark SQL 操作Hive数据库①Spark读取MySqlStep1 登录SQLStep2 创建数据库,并选择数据库Step3 创建表Step4 插入数据到表中。原创 2022-09-09 15:02:49 · 1370 阅读 · 15 评论 -
Dataset 的基础知识和RDD转换为DataFrame
Dataset是从Spark1.6 Alpha版本中引入的一个新的数据抽线结构,最懂在Spark2.0版本被定义成Spark新特性。RDD, DataFrame,Dataset数据对比1 RDD数据没有数据类型和元数据信息2 DataFrame添加了Schema信息,每一行的类型固定为Row,每一列的值无法直接访问3 在RDD的基础上增加了一个数据类型,可以拥有严格的错误检查机制。4 Dataset和DataFrame拥有完全相同的成员函数原创 2022-08-25 12:17:31 · 1626 阅读 · 28 评论 -
DataFrame基础知识
DataFrame:可以看出分布式Row对象的集合,在二维表数据集的每一列都带有名称和类型,这些就是schema(元数据)Select:col:某一列,as:重命名 filter:过滤groupBy() ,对记录进行分组sort排序。,并且可以从很多数据源中创建,如结构化文件、外部数据库、Hive表等数据源。DataFrame提供了两种语法风格,1 DSL风格语法,2 SQL语法风格。DataFrame:除了提供比RDD更丰富的算子外,更重要的特点是。,DataFrame可以完成RDD的绝大多数功能。原创 2022-08-22 20:44:44 · 5185 阅读 · 15 评论 -
Spark SQL 结构化数据文件处理
Spark SQL是Spark用来处理结构化数据的一个模块,它提供了一个叫作DataFrame的编程模型(带有Schema信息的RDD)。SparkSQL作为分布式SQL查询引擎,让用户可以通过SQL、DataFrameAPI和DatasetAPI三种方法实现对结构化数据的处理。原创 2022-08-20 14:39:23 · 2325 阅读 · 31 评论 -
Spark的任务调度
DAG(Direted Aeyelie Grph,有向无环图)Sprk中的RDD通过一系列的转换算子操作和行动算子操作形成了一个DAG。如果一个有向图无法从任意顶点出发经过若干条边回到该点,则这个图就是有向无环图。原创 2022-08-20 14:29:29 · 1222 阅读 · 1 评论 -
RDD的分区、依赖关系、机制
RDD的分区原则是分区的个数尽量等于集群中的CPU核心(Core)数目。各种模式下的默认分区数目如下(1) Local模式:默认为本地机器的CPU数目,若设置了local[N].则默认为N.(2) Standalone或者Yarn模式:在“集群中所有CPU核数总和"和“2”这两者中取较大值作为默认值。(3) Mesos 模式:默认的分区数是8.Spark框架为RDD提供了两种分区方式,分别是哈希分区(HashPartitioner)和范围分区(RangePartitioner)。Spark也支持自定义分区方原创 2022-08-17 13:35:05 · 2388 阅读 · 9 评论 -
RDD的处理过程
RDD经过一些列的“转换”操作,每一次转换都会产生不同的RDD,以供给下一次“转换”操作使用,直到最后一个RDD经过“行动”操作才会被真正计算处理,并输出到外部数据源中,若中间的数据结果需要复用,则可以进行缓存处理,将数据缓存到内存中。注意:RDD采用了惰性调用,即在RDD的处理过程中,真正的计算发生在RDD的“行动”操作。......原创 2022-08-15 21:17:49 · 690 阅读 · 48 评论 -
Spark RDD弹性分布式数据集
RDD(Resilient Distributted Dataset,弹性分布式数据集),是一个容错的、并行的数据结构,可以让用户显式的将数据存储到磁盘和内存中,并且含能够控制数据的分区。对于迭代式计算和交互式数据挖掘,RDD可以将中间计算的数据结果保存在内存中,需要计算时,则可以直接从内存中读取,从而极大地提高计算速度。......原创 2022-08-14 10:39:39 · 541 阅读 · 15 评论 -
集群模式执行Spark程序(第七弹)
打包成功标志: 显示BUILD SUCCESS,可以看到target目录下的2个jar包。读取数据文件,RDD可以简单的理解为是一个集合,集合中存放的元素是String类型。在pom.xml文件中添加所需插件。#先将解压的两个jar包复制出来。把结果数据保存到HDFS上。...原创 2022-08-11 23:18:37 · 871 阅读 · 15 评论