发量不足-CSDN博客

JDK全称Java Development Kit 中文意思是Java 开发工具包即java标准版开发包，是Oracle提供的一套用于开发java应用程序的开发包，它提供编译，运行java程序所需要的各种工具和资源，包括java编译器，java运行时环境，以及常用的java类库等。JRE Java Runtime Environment(JRE) Java运行环境Java运行环境，它的全称Java Runtime Envi

2022-11-08 15:32:45 6087 131

原创 [Hadoop全分布部署]配置网络(IP、网关和DNS等)和防火墙

配置网络(IP、网关和DNS等)和防火墙1.1 查看服务器的 IP 地址1.2 设置服务器ip地址1.3 重启网络1.4 pingwww.baidu.com看是否能联网1.5 修改服务器的主机名称1.6 绑定主机名与 IP 地址1.7 关闭防火墙1.8 创建hadoop用户

2022-10-25 23:01:12 7255 75

原创 [机器学习、Spark]Spark MLlib分类

线性支持向量机在机器学习领域中是一种常见的判别方法，是一一个有监督学习模型,通常用来进行模式识别，分类以及回归分析。通过找到支持向量从而获得分类平面的方法，称为支持向量机。可以非常成功地处理回归（时间序列分析）和模式识别（分类问题、判别分析）等诸多问题，并可推广到预测和综合评价等领域，因此可应用于理科、工科和管理等多种学科。逻辑回归又称为逻辑回归分析,它是一个概率模型的分类算法，常用于数据挖掘、疾病自动诊断以及经济预测等领域。逻辑回归和线性回归类似，但它不属于回归分析家族，差异主要是在于变量不同

2022-10-23 10:08:22 3064 76

原创 [机器学习、Spark]Spark MLlib实现数据基本统计

MLlib提供了很多统计方法，包含摘要统计、相关统计、分层抽样、假设检验、随机数生成等统计方法，利用这些统计方法可帮助用户更好地对结果数据进行处理和分析MLlib三个核心功能：1.实用程序：统计方法，如描述性统计、卡方检验、线性代数、模型评估方法等2.数据准备：特征提取、变换、分类特征的散列和一些自然语言处理方法3.机器学习方法：实现了一些流行和高级的回归，分类和聚类算法

2022-10-22 09:35:17 3472 108

原创 [机器学习、Spark]Spark机器学习库MLlib的概述与数据类型

MLlib是Spark提供的可扩展的机器学习库，其特点是采用较为先进的迭代式、内存存储的分析计算，使得数据的计算处理速度大大高于普通的数据处理引擎。MLlib的主要数据类型包括本地向量、标注点、本地矩阵。本地向量和本地矩阵是提供公共接口的简单数据模型，Breeze和Jblas提供了底层的线性代数运算。在监督学习中用标注点类型表示训练样本。

2022-10-18 23:11:23 3765 110

原创 [机器学习、Spark]Spark MLlib机器学习

机器学习是一门多领域的交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科，专门研究计算机如何模拟或实现人类的学习行为，以获取新的知识或技能.重新组织已有的知识结构使之不断改善自身的性能。机器学习分为2类：（1）有监督学习通过已有的训练样本(即已知数据以及其对应的输出)训练得到一个最优模型,再利用这个模型将所有的输人映射为相应的输出，对输出进行简单的判断从而实现分类的目的。如分类、回归和推荐算法都属于有监督学习。（2）无监督学习

2022-10-17 16:11:27 1570 67

原创 [Spark、hadoop]Spark Streaming整合kafka实战

Kafka是由Apache软件基金会开发的一个开源流处理平台,它使用Scala和Java语言编写，是一个基于Zookeeper系统的分布式发布订阅消息系统，该项目的设计初衷是为实时数据提供一个统一、高通量、低等待的消息传递平台。①、Kafka的众多优点：其优点具体：(1)解耦。Kafka 具备消息系统的优点,只要生产者和消费者数据两端遵循接口约束，就可以自行扩展或修改数据处理的业务过程。(2)高吞吐量、低延迟。即使在非常廉价的机器上,Kafka也能做到每秒处理几十万条消息，而它的延迟最低只有几毫

2022-10-14 10:57:40 3750 86

原创 [Spark、hadoop]DStream的窗口操作、输出操作、实例——实现网站热词排序

Dstream(Discretized Stream)是Spark Streaming数据的基本传输单位。它表示一个连续的数据流,这个数据流可以是原始的数据输入流,也可以是将原始的数据输入流通过转换生成已处理的数据输入流特点1、Spark Streaming对流数据按秒/分等时间间隔进行微批划分,每个微批就是一个RDD2、DStream由一系列连续的RDD组成,每个RDD都包含来自特定间隔的数据3、DStream本质上就是一系列时间上连续的RDD(DStream = Seq[RDD])

2022-10-12 10:29:10 6997 63

原创 [Spark、hadoop]spark Streaming的核心DStream

1.SparkStreaming提供了一个高级抽象的流，即DStream(离散流)。2.DStream的内部结构是由一系列连续的RDD组成，每个RDD都是一小段由时间分隔开来的数据集。

2022-10-03 14:12:39 2305 114

原创 [平台运维、Hadoop]Spark Streaming 实时计算框架

在大数据技术中,有离线计算、批量计算、实时计算以及流式计算，其中，离线计算和实时计算指的是数据处理的延迟;批量计算和流式计算指的是数据处理的方式。Spark Streming是构建在Spark上的实时计算框架，且是对Sparks Core API的一个扩展,它能够实现对流数据进行实时处理，并具有很好的可扩展性、高吞吐量和容错性。

2022-10-02 14:25:22 1755 8

原创 [平台运维、Hadoop]kafka streams概述

Kafka Streams是Apache Kafka开源项目的一个流处理框架，它是基于Kafka的生产者和消费者,为开发者提供了流式处理的能力,具有低延迟性.高扩展性、高弹性、高容错性的特点，易于集成到现有的应用程序中。KafkaStreams是一套处理分析Kafka中存储数据的客户端类库，处理完的数据可以重新写回Kafka，也可以发送给外部存储系统。

2022-10-01 09:56:52 1735 14

原创 [大数据、Hadoop、数据采集、MySQL、计算机基础、Windows、练习题库、面试]

[大数据][数据采集][练习题][面试]正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。16. 正则表达式是对字符串操作的一种逻辑公式，就是用事先定义好的一些特定字符、及这些特定字符的组合，组成一个“规则字符串”，这个“规则字符串”用来表达对字符串的一种过滤逻辑。

2022-09-30 20:48:04 3204 13

原创 [大数据]数据可视化 -- 练习卷（下）

一、简述数据可视化的概念？数据可视化将各种数据用图形的方式展示给人们，是人们理解数据、诠释数据的重要手段和途径，数据可视化是帮助用户通过认识数据，进而发现这些数据所反映的实质。二、简述数据可视化的类型？科学可视化、信息可视化、可视化分析三、简述数据可视化的标准？实用性、完整性、真实性、艺术性、交互性四、简述数据可视化的作用？数据表达、数据操作、数据分析五、简述数据可视化技术的特征？1.功能特征2.使用人群特征3.应用场景特征

2022-09-29 18:47:27 3407 115

原创 [大数据]数据可视化 -- 练习卷（上）

是指发现并纠正数据文件中可识别错误的最后一道程序，是对数据的完整性、一致性和准确性进行重新审查和校验的过程。．动态图表是图表分析的较高级形式，当用户执行某个操作后，图表中的数据会随之发生变化，这种图表也称为。相结合的方式，可以很好地阐释单个系列数据从一个值到另一个值的变化过程，形象地说明数据的流动情况。的定位功能，选择其中的错误单元格或空值单元格，进一步查找数据表中的错误值和空白值。是一种直观的条件格式，通过颜色的深浅表示数据的大小，说明数据的分布和变化。．下列属于反映发展趋势的可视化图表的

2022-09-24 19:08:38 9045 118

原创 Kafka 生产者和消费者实例

基于命令行使用Kafka类似scala，mysql等，命令行是初学者操作Kafka的基本方式，kafka的模式是生产者消费者模式，他们之间通讯是通过，一个公共频道完成。指定消费者组ID，在同一时刻同一消费组中只有一个线程可以去消费一个分区数据，不同的消费组可以去消费同一个分区的数据。(查看KafkaConsumerTest的运行框)由以下图可以看出生产者生产消息。在工程里面的pom.xml文件添加Kafka依赖。

2022-09-17 20:51:43 4009 24

原创 Kafka集群部署与测试

Kafka集群部署与测试安装Kafka①、Alt+P 拷贝安装包 cd /opt/moduletar -zxvf /opt/software/kafka_2.11-2.0.0.tgz -C /opt/module/②、修改配置文件vi /opt/module/kafka_2.11-2.0.0/config/server.properties 增加环境变量

2022-09-12 19:22:34 1953 66

原创 Kafka分布式发布订阅消息系统

大数据系统面临的首要困难是海量数据之间该如何进行传输。Kafka、RabbitMQ、ActiveMQ等，Kafka 是专门为分布式高吞吐量系统而设计开发的，它非常适合在海量数据集的应用程序中进行清息传递。Kafka是由Apache软件基金会开发的一个开源流处理平台,它使用Scala和Java语言编写，是一个基于Zookeeper系统的分布式发布订阅消息系统，该项目的设计初衷是为实时数据提供一个统一、高通量、低等待的消息传递平台。

2022-09-10 22:54:29 2151 12

原创 Spark SQL操作数据源

一、操作MySql二、操作HIVE数据库①准备环境②创建表类型③插入数据④Spark SQL 操作Hive数据库①Spark读取MySqlStep1 登录SQLStep2 创建数据库，并选择数据库Step3 创建表Step4 插入数据到表中。

2022-09-09 15:02:49 1393 15

原创 Dataset 的基础知识和RDD转换为DataFrame

Dataset是从Spark1.6 Alpha版本中引入的一个新的数据抽线结构，最懂在Spark2.0版本被定义成Spark新特性。RDD， DataFrame，Dataset数据对比1 RDD数据没有数据类型和元数据信息2 DataFrame添加了Schema信息，每一行的类型固定为Row，每一列的值无法直接访问3 在RDD的基础上增加了一个数据类型，可以拥有严格的错误检查机制。4 Dataset和DataFrame拥有完全相同的成员函数

2022-08-25 12:17:31 1641 28

原创 DataFrame基础知识

DataFrame：可以看出分布式Row对象的集合，在二维表数据集的每一列都带有名称和类型，这些就是schema（元数据）Select：col：某一列，as：重命名 filter：过滤groupBy() ，对记录进行分组sort排序。，并且可以从很多数据源中创建，如结构化文件、外部数据库、Hive表等数据源。DataFrame提供了两种语法风格，1 DSL风格语法，2 SQL语法风格。DataFrame：除了提供比RDD更丰富的算子外，更重要的特点是。，DataFrame可以完成RDD的绝大多数功能。

2022-08-22 20:44:44 5352 15

原创 Spark SQL 结构化数据文件处理

Spark SQL是Spark用来处理结构化数据的一个模块，它提供了一个叫作DataFrame的编程模型（带有Schema信息的RDD）。SparkSQL作为分布式SQL查询引擎，让用户可以通过SQL、DataFrameAPI和DatasetAPI三种方法实现对结构化数据的处理。

2022-08-20 14:39:23 2342 31

原创 Spark的任务调度

DAG（Direted Aeyelie Grph,有向无环图)Sprk中的RDD通过一系列的转换算子操作和行动算子操作形成了一个DAG。如果一个有向图无法从任意顶点出发经过若干条边回到该点，则这个图就是有向无环图。

2022-08-20 14:29:29 1235 1

原创 RDD的分区、依赖关系、机制

RDD的分区原则是分区的个数尽量等于集群中的CPU核心(Core)数目。各种模式下的默认分区数目如下(1) Local模式:默认为本地机器的CPU数目,若设置了local[N].则默认为N.(2) Standalone或者Yarn模式:在“集群中所有CPU核数总和"和“2”这两者中取较大值作为默认值。(3) Mesos 模式:默认的分区数是8.Spark框架为RDD提供了两种分区方式，分别是哈希分区(HashPartitioner)和范围分区(RangePartitioner)。Spark也支持自定义分区方

2022-08-17 13:35:05 2438 9

原创 RDD的处理过程

RDD经过一些列的“转换”操作，每一次转换都会产生不同的RDD，以供给下一次“转换”操作使用，直到最后一个RDD经过“行动”操作才会被真正计算处理，并输出到外部数据源中，若中间的数据结果需要复用，则可以进行缓存处理，将数据缓存到内存中。注意：RDD采用了惰性调用，即在RDD的处理过程中，真正的计算发生在RDD的“行动”操作。......

2022-08-15 21:17:49 730 48

原创 Spark RDD弹性分布式数据集

RDD（Resilient Distributted Dataset,弹性分布式数据集），是一个容错的、并行的数据结构，可以让用户显式的将数据存储到磁盘和内存中，并且含能够控制数据的分区。对于迭代式计算和交互式数据挖掘，RDD可以将中间计算的数据结果保存在内存中，需要计算时，则可以直接从内存中读取，从而极大地提高计算速度。......

2022-08-14 10:39:39 550 15

原创集群模式执行Spark程序(第七弹)

打包成功标志：显示BUILD SUCCESS，可以看到target目录下的2个jar包。读取数据文件,RDD可以简单的理解为是一个集合，集合中存放的元素是String类型。在pom.xml文件中添加所需插件。#先将解压的两个jar包复制出来。把结果数据保存到HDFS上。...

2022-08-11 23:18:37 884 15

原创添加spark的相关依赖和打包插件（第六弹）

可以看到计算出的单词频数itcast（1）Hadoop（1）spark（1）hello（3）可以看到计算出的单词频数itcast（1）Hadoop（1）spark（1）hello（3）

2022-08-09 22:37:29 3934 13

原创 IDLE开发wordCount程序（第五弹）

以本地模式执行spark程序

2022-08-08 22:07:48 700 16

原创体验第一个spark程序（第四弹）

先启动spark集群或者启动hdfs集群，如果之前有开启，则需要重新关闭再开启spark集群或者启动hdfs集群。以客户端模式连接Yarn集群，集群的位置可以在HADOOP_CONF_DIR环境变量中配置。以集群模式连接Yarn集群，集群的位置可以在HADOOP_CONF_DIR环境变量中配置。在standalone模式下，连接到指定spark集群，默认端口号是7077。在spark目录下启动spark服务（未停止的，先停止在启动）启动Hadoop服务（未停止的，先停止在启动）遇到不能创建问题是因为。...

2022-08-07 11:54:45 1726 23

空空如也

空空如也