大数据
文章平均质量分 67
小爽123
微信:a1790331336qq:1790331336大家一起学习!
展开
-
sparkstream消费kafka序列化报错
本篇介绍在window运行环境下,使用spark消费kafka数据遇到的几个坑。。调试环境IDEA//依赖<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.12</artifactId> <version>2.4.7</version>原创 2021-08-21 21:55:23 · 2760 阅读 · 1 评论 -
Spark基础练习系列
因最近学习了scala重温spark,本篇主要是spark sql的基础编程题原题目地址: 题目地址数据准备本次所需的数据student.txt字段说明 学号 学生姓名 学生性别 学生出生年月 学生所在班级108 丘东 男 1977-09-01 95033105 匡明 男 1975-10-02 95031107 王丽 女 1976-01-23 95033101 李军 男 1976-02-20 95033109 王芳 女 1975-02-10 95031103 陆君 男 1原创 2021-08-18 14:52:16 · 1076 阅读 · 0 评论 -
Spark基础测试题
因最近学习了scala重温spark,本篇主要是spark rdd的基础编程题原题目地址: 题目地址数据准备本题所需的数据 data.txt数据结构如下依次是:班级 姓名 年龄 性别 科目 成绩12 宋江 25 男 chinese 5012 宋江 25 男 math 6012 宋江 25 男 english 7012 吴用 20 男 chinese 5012 吴用 20 男 math 5012 吴用 20 男 english 5012 杨春 19 女 chinese 7012 杨春原创 2021-08-16 14:58:49 · 779 阅读 · 0 评论 -
原生spark与pyspark使用比较
pyspark与原生spark(scala)比较在学习完spark这个优秀的计算框架后,因为当时的学习使用了python api对spark进行交互,编写spark的原生语言为sacla,所以,在简单的自学完scala后,再次使用scala对spark进行交互,也可称为scala初体验~本篇文章主要以使用python和scala分别编写spark程序实现wordcount单词计数,来对pyspark和原生spark进行比较1.spark计算框架介绍Spark是UC Berkeley AMP原创 2021-08-05 14:02:56 · 6278 阅读 · 0 评论 -
hive安装与配置
hive的安装与配置hive介绍: Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。准备工作:hadoop集群成功部署卸载自带的mariadb下载安装mysql(mysql做元数据存储)上传hive2.3.8压缩包1.卸载mariadb# 查看mariadb版本rpm -qa |grep mariadb# 卸载mariadbrpm -e --nodeps mariadb-libs-5.5.44-2.el7.cento原创 2021-06-06 18:58:28 · 256 阅读 · 1 评论 -
mapreduce(python开发)
开发mapreduce简介: MapReduce是面向大数据并行处理的计算模型、框架和平台,它隐含了以下三层含义:(1)MapReduce是一个基于集群的高性能并行计算平台(Cluster Infrastructure)。它允许用市场上普通的商用服务器构成一个包含数十、数百至数千个节点的分布和并行计算集群。(2)MapReduce是一个并行计算与运行软件框架(Software Framework)。它提供了一个庞大但设计精良的并行计算软件框架,能自动完成计算任务的并行化处理,自动划分计算数据和计算任原创 2021-06-01 13:00:26 · 6787 阅读 · 7 评论 -
hdfs基本使用
hdfs基本使用本篇文章主要介绍一下常用的hdfs命令hdfs介绍:HDFS是Hadoop应用用到的一个最主要的分布式存储系统。一个HDFS集群主要由一个NameNode和很多个Datanode组成:Namenode管理文件系统的元数据,而Datanode存储了实际的数据。HDFS的体系结构在这里有详细的描述。本文档主要关注用户以及管理员怎样和HDFS进行交互。HDFS架构设计中的图解描述了Namenode、Datanode和客户端之间的基本的交互操作。基本上,客户端联系Namenode以获取文件的元原创 2021-05-30 17:28:24 · 493 阅读 · 0 评论 -
hadoop安装与配置
hadoop安装与配置目标:搭建由三台节点(master、node1、node2)组成的hadoop集群准备工作:1.创建虚拟机安装centos2.配置虚拟机网络3.配置三台虚拟机ssh免密4.上传hadoop2.7.3与jdk1.8.1压缩包到虚拟机主要流程:1.解压hadoop与jdk配置环境变量2.修改hadoop配置文件3.将hadoop与jdk分发到另外两台节点4.初始化namenode1.解压配置环境变量(1)使用解压命令将hadoop与jdk解压tar -zxvf原创 2021-05-30 17:04:05 · 341 阅读 · 3 评论