Linux
文章平均质量分 82
发量不足
耐心,自信来源于你强大的思想和知识基础
展开
-
[hadoop全分布部署]Hive组件安装配置①
hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。🔥🔥🔥🔥🔥🔥🔥🔥🔥🔥原创 2023-03-29 11:05:32 · 541 阅读 · 8 评论 -
[hadoop全分布部署]安装Hadoop、验证Hadoop①
一、配置hadoop格式化二、查看 Java 进程三、查看 HDFS 的报告原创 2022-12-18 10:46:30 · 11255 阅读 · 199 评论 -
[hadoop全分布部署]安装Hadoop、配置Hadoop 配置文件②
一、配置 core-site.xml 文件参数二、配置 mapred-site.xml (Mapreduce参数)三、配置 yarn-site.xml原创 2022-12-05 12:42:42 · 11849 阅读 · 197 评论 -
[hadoop全分布部署]安装Hadoop、配置Hadoop 配置文件①
安装Hadoop、配置Hadoop 配置文件一、配置hadoop-env.sh文件二、配置 hdfs-site.xml 文件参数原创 2022-11-26 22:22:55 · 13426 阅读 · 217 评论 -
[hadoop全分布部署]虚拟机Hadoop集群交换 SSH 密钥与验证SSh无密码登录
虚拟机Hadoop集群交换 SSH 密钥与验证SSh无密码登录原创 2022-11-25 10:47:52 · 3456 阅读 · 65 评论 -
[hadoop全分布部署]虚拟机Hadoop集群配置/etc/hosts、配置无密码登录(SSH)
改IP地址、改MAC地址、改主机名vi /etc/sysconfig/network-scripts/ifcfg-ens33192.168.196.101对应master192.168.196.102对应slave1192.168.196.103 对应slave2原创 2022-11-17 09:54:46 · 5195 阅读 · 113 评论 -
[Hadoop全分布部署]安装JDK、Hadoop
JDK全称Java Development Kit 中文意思是Java 开发工具包即java标准版开发包,是Oracle提供的一套用于开发java应用程序的开发包,它提供编译,运行java程序所需要的各种工具和资源,包括java编译器,java运行时环境,以及常用的java类库等。JRE Java Runtime Environment(JRE) Java运行环境Java运行环境,它的全称Java Runtime Envi原创 2022-11-08 15:32:45 · 6008 阅读 · 131 评论 -
[Hadoop全分布部署]配置网络(IP、网关和DNS等)和防火墙
配置网络(IP、网关和DNS等)和防火墙1.1 查看服务器的 IP 地址1.2 设置服务器ip地址1.3 重启网络1.4 pingwww.baidu.com看是否能联网1.5 修改服务器的主机名称1.6 绑定主机名与 IP 地址1.7 关闭防火墙1.8 创建hadoop用户原创 2022-10-25 23:01:12 · 7176 阅读 · 75 评论 -
[机器学习、Spark]Spark MLlib实现数据基本统计
MLlib提供了很多统计方法,包含摘要统计、相关统计、分层抽样、假设检验、随机数生成等统计方法,利用这些统计方法可帮助用户更好地对结果数据进行处理和分析MLlib三个核心功能:1.实用程序:统计方法,如描述性统计、卡方检验、线性代数、模型评估方法等2.数据准备:特征提取、变换、分类特征的散列和一些自然语言处理方法3.机器学习方法:实现了一些流行和高级的回归,分类和聚类算法原创 2022-10-22 09:35:17 · 3432 阅读 · 108 评论 -
[机器学习、Spark]Spark机器学习库MLlib的概述与数据类型
MLlib是Spark提供的可扩展的机器学习库,其特点是采用较为先进的迭代式、内存存储的分析计算,使得数据的计算处理速度大大高于普通的数据处理引擎。MLlib的主要数据类型包括本地向量、标注点、本地矩阵。本地向量和本地矩阵是提供公共接口的简单数据模型,Breeze和Jblas提供了底层的线性代数运算。在监督学习中用标注点类型表示训练样本。原创 2022-10-18 23:11:23 · 3721 阅读 · 110 评论 -
Kafka 生产者和消费者实例
基于命令行使用Kafka类似scala,mysql等,命令行是初学者操作Kafka的基本方式,kafka的模式是生产者消费者模式,他们之间通讯是通过,一个公共频道完成。指定消费者组ID,在同一时刻同一消费组中只有一个线程可以去消费一个分区数据,不同的消费组可以去消费同一个分区的数据。(查看KafkaConsumerTest的运行框)由以下图可以看出生产者生产消息。在工程里面的pom.xml文件添加Kafka依赖。原创 2022-09-17 20:51:43 · 3929 阅读 · 24 评论 -
Kafka集群部署与测试
Kafka集群部署与测试安装Kafka①、Alt+P 拷贝安装包 cd /opt/moduletar -zxvf /opt/software/kafka_2.11-2.0.0.tgz -C /opt/module/②、修改配置文件vi /opt/module/kafka_2.11-2.0.0/config/server.properties 增加环境变量原创 2022-09-12 19:22:34 · 1924 阅读 · 66 评论 -
Spark SQL操作数据源
一、操作MySql二、操作HIVE数据库①准备环境②创建表类型③插入数据④Spark SQL 操作Hive数据库①Spark读取MySqlStep1 登录SQLStep2 创建数据库,并选择数据库Step3 创建表Step4 插入数据到表中。原创 2022-09-09 15:02:49 · 1361 阅读 · 15 评论 -
Dataset 的基础知识和RDD转换为DataFrame
Dataset是从Spark1.6 Alpha版本中引入的一个新的数据抽线结构,最懂在Spark2.0版本被定义成Spark新特性。RDD, DataFrame,Dataset数据对比1 RDD数据没有数据类型和元数据信息2 DataFrame添加了Schema信息,每一行的类型固定为Row,每一列的值无法直接访问3 在RDD的基础上增加了一个数据类型,可以拥有严格的错误检查机制。4 Dataset和DataFrame拥有完全相同的成员函数原创 2022-08-25 12:17:31 · 1619 阅读 · 28 评论 -
DataFrame基础知识
DataFrame:可以看出分布式Row对象的集合,在二维表数据集的每一列都带有名称和类型,这些就是schema(元数据)Select:col:某一列,as:重命名 filter:过滤groupBy() ,对记录进行分组sort排序。,并且可以从很多数据源中创建,如结构化文件、外部数据库、Hive表等数据源。DataFrame提供了两种语法风格,1 DSL风格语法,2 SQL语法风格。DataFrame:除了提供比RDD更丰富的算子外,更重要的特点是。,DataFrame可以完成RDD的绝大多数功能。原创 2022-08-22 20:44:44 · 5138 阅读 · 15 评论 -
Spark的任务调度
DAG(Direted Aeyelie Grph,有向无环图)Sprk中的RDD通过一系列的转换算子操作和行动算子操作形成了一个DAG。如果一个有向图无法从任意顶点出发经过若干条边回到该点,则这个图就是有向无环图。原创 2022-08-20 14:29:29 · 1217 阅读 · 1 评论 -
RDD的分区、依赖关系、机制
RDD的分区原则是分区的个数尽量等于集群中的CPU核心(Core)数目。各种模式下的默认分区数目如下(1) Local模式:默认为本地机器的CPU数目,若设置了local[N].则默认为N.(2) Standalone或者Yarn模式:在“集群中所有CPU核数总和"和“2”这两者中取较大值作为默认值。(3) Mesos 模式:默认的分区数是8.Spark框架为RDD提供了两种分区方式,分别是哈希分区(HashPartitioner)和范围分区(RangePartitioner)。Spark也支持自定义分区方原创 2022-08-17 13:35:05 · 2376 阅读 · 9 评论 -
RDD的处理过程
RDD经过一些列的“转换”操作,每一次转换都会产生不同的RDD,以供给下一次“转换”操作使用,直到最后一个RDD经过“行动”操作才会被真正计算处理,并输出到外部数据源中,若中间的数据结果需要复用,则可以进行缓存处理,将数据缓存到内存中。注意:RDD采用了惰性调用,即在RDD的处理过程中,真正的计算发生在RDD的“行动”操作。......原创 2022-08-15 21:17:49 · 684 阅读 · 48 评论 -
Spark RDD弹性分布式数据集
RDD(Resilient Distributted Dataset,弹性分布式数据集),是一个容错的、并行的数据结构,可以让用户显式的将数据存储到磁盘和内存中,并且含能够控制数据的分区。对于迭代式计算和交互式数据挖掘,RDD可以将中间计算的数据结果保存在内存中,需要计算时,则可以直接从内存中读取,从而极大地提高计算速度。......原创 2022-08-14 10:39:39 · 537 阅读 · 15 评论 -
spark集群部署(第三弹)
(1)spark.deploy.recoveryMode=ZOOKEEPER:设置zookeeper去启用备用master模式(2)spark.deploy.zookeeper.url=master:指定zookeeper的server地址(3)spark.deploy.zookeeper.dir:保存集群元数据信息的文件和目录原创 2022-08-04 20:57:38 · 8572 阅读 · 18 评论 -
搭建Spark开发环境(第二弹)
😊😊😊欢迎来到本博客😊😊😊本篇介绍的是Spark环境的准备🛠🛠🛠预更新📑:体验第一个Spark程序一.环境准备二·.spark的部署方式三.spark集群安装部署一.环境准备配置环境:Hadoop、spark(本人是2.0.0)、JDK(1.8)、Linux(Centos6.7)二·.spark的部署方式spark部署模式分为Local模式和集群模式,在local模式,常用于本地开发与测试,集群模式又分为standalone。.........原创 2022-08-02 20:57:17 · 1846 阅读 · 32 评论 -
解决启动filebeat时遇到Exiting: error unpacking config data: more than one namespace configured accessing错误
在虚拟机解压好filebeat后输入#: ./filebeat -c filebeat.yml遇到如下问题!!!!!!Exiting: error unpacking config data: more than one namespace configured accessing 'output' (source:'filebeat.yml')翻译:退出:解压缩配置数据时出错:访问“输出”时配置了多个命名空间(源:'filebeat.yml')解决方法:#注意要在自己安装f原创 2022-02-14 21:52:17 · 6052 阅读 · 13 评论