大数据开发技术
文章平均质量分 77
学习记录
超周到的程序员
【履历】目前就职于快手,大三时在腾讯实习,22年秋招收到多家大厂的录用offer:腾讯云、快手、云账户、福耀、比亚迪等,有二十余场面试经验
【技术咨询】本人可提供指导的方向:软件开发领域的多种语言的后端开发(Java、Python、Node.js、Go)、前端开发、3D游戏开发、App开发、网络爬虫、Web自动化、数据可视化
展开
-
【大数据开发 Spark】第五篇:模拟分布式计算:Client 的计算任务 Task 交给多个 Server 处理
Spark 分布式计算模拟原创 2022-05-29 23:08:49 · 285 阅读 · 0 评论 -
【大数据开发 Spark】第四篇:搭建 Spark 完全分布式 Yarn 运行环境
文章目录1 版本说明2 搭建 Spark 完全分布式 Yarn 运行环境2.1 搭建 Hadoop 环境2.2 Spark 配置2.3 配置 Spark 历史服务器2.4 编写 Spark 集群启动的脚本2.5 启动集群2.6 实例测试1 版本说明jdk1.8.0_311hadoop-3.1.3spark-3.0.02 搭建 Spark 完全分布式 Yarn 运行环境2.1 搭建 Hadoop 环境在之前的文章中已经详细介绍过:【Hadoop 3】图文详解:搭建Hadoop完全分布式运行模原创 2022-05-28 23:28:12 · 1013 阅读 · 0 评论 -
【大数据开发 Spark】第三篇:三种方式实现 WordCount 单词统计
文章目录Spark 实现 WordCount 单词统计1 方式一2 方式二3 方式三Spark 实现 WordCount 单词统计1 方式一如下图所示,先拆分出一个个单词,再按类分组,再统计出每类中单词个数。编写测试数据Hello WorldHello WorldHello SparkHello Spark代码部分:虽然当前这个程序运行没什么问题,但是一大堆爆红看着难受,这里可以自定义一下 log 日志配置log4j.rootCategory=ERROR, console原创 2022-05-28 22:20:55 · 690 阅读 · 0 评论 -
【大数据开发 Spark】第二篇:搭建 Spark 开发环境、 Spark 实现 WordCount 单词统计
文章目录1 版本说明2 IDEA 开发环境2.1 创建 Maven 工程2.2 配置 Scala 环境2.3 配置 Spark 环境3 Spark 实现 WordCount 单词统计1 版本说明Spark:3.0.0JDK:1.8Scala:2.12.112 IDEA 开发环境2.1 创建 Maven 工程创建 Maven 聚合工程,方便之后学习 Spark 时,分模块创建多个子工程,更清晰。2.2 配置 Scala 环境在项目结构中导入 Scala 开发包,可以在 IDEA 中在线下原创 2022-05-28 22:20:15 · 802 阅读 · 0 评论 -
【大数据开发 Spark】第一篇:Spark 简介、Spark 的核心组成(5大模块)、Spark 的主要特征(4大特征)、Spark 对比 MapReduce
这里写自定义目录标题欢迎使用Markdown编辑器新的改变功能快捷键合理的创建标题,有助于目录的生成如何改变文本的样式插入链接与图片如何插入一段漂亮的代码片生成一个适合你的列表创建一个表格设定内容居中、居左、居右SmartyPants创建一个自定义列表如何创建一个注脚注释也是必不可少的KaTeX数学公式新的甘特图功能,丰富你的文章UML 图表FLowchart流程图导出与导入导出导入欢迎使用Markdown编辑器你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Mar原创 2022-05-28 22:19:42 · 4521 阅读 · 0 评论 -
【Hadoop项目:万字图文开发总结】全国各省市酒店数据的分析与处理
文章目录1 需求分析1.1 数据一览1.2 数据清洗1.3 分类下的统计与排序1.4 分类下的求均值与排序1.5 多维度下的综合统计2 技术实现2.1 环境搭建2.2 实现:数据清洗1 需求分析1.1 数据一览如下图所示,共一万多条数据,除去首行,共 13036 条酒店数据。…1.2 数据清洗不符合要求的数据为:每条记录如果为NULL的字段数量大于等3;“星级、评论数、评分”这三个字段有一个为NULL;重复的记录,将重复的去掉;MapReduce 程序1:删除满足以上三个条件的原创 2021-12-12 12:57:45 · 3866 阅读 · 5 评论 -
【Hadoop 3】HDFS 高可用环境搭建(详细图文教程)
文章目录1 预先说明1.1 软件版本说明1.2 集群配置说明2 集群规划3 搭建环境3.1 修改配置文件3.2 zookeeper 的安装与配置1 预先说明1.1 软件版本说明操作系统:CentOS-7-x86_64-DVD-1804.isoJDK:jdk-8u202-linux-x64.tar.gzHadoop:hadoop-3.1.3.tar.gzzookeeper:apache-zookeeper-3.7.0-bin.tar.gz1.2 集群配置说明之前已经配置过 Hadoop 完原创 2021-10-30 09:49:01 · 4047 阅读 · 3 评论 -
【Hadoop 3】集群管理:集群中结点的添加、删除(图文总结)
文章目录一、环境说明二、集群节点的添加三、集群结点的删除一、环境说明Hadoop-3.1.3 完全分布式:详细图文配置(可参考之前文章 【Hadoop 3】图文详解:搭建Hadoop完全分布式运行模式)集群各结点的进程安排情况如下,现在欲添加的新结点主机名为 hadoop105。hadoop102hadoop103hadoop104HDFSNameNodeDataNodeDataNodeSecondaryNameNodeDataNodeYARNNodeManag原创 2021-10-18 10:31:36 · 1147 阅读 · 2 评论 -
【Hadoop 3】HDFS:高可用/靠测试、集群崩溃的处理
文章目录一、环境与运行情况说明二、模拟崩溃操作三、故障恢复一、环境与运行情况说明当前环境为 Hadoop 完全分布式环境,共三台客户机,主机名分别为 hadoop102,hadoop103,hadoop104具体配置过程与细则见:【Hadoop】完全分布式运行模式搭建流程hadoop102 的运行情况:hadoop103 的运行情况:hadoop104 的运行情况:可参照下表来更形象地表示三个客户机的运行情况:hadoop102hadoop103had原创 2021-10-10 10:29:53 · 504 阅读 · 0 评论 -
【Hadoop 3】图文详解:搭建Hadoop完全分布式运行模式
文章目录一、流程分析二、虚拟机准备三、拷贝 JDK、Hadoop 目录:scp 命令四、分发环境变量配置:编写集群分发脚本 xsync五、SSH 免密登录一、流程分析(1)配置一台客户机,如主机名为 hadoop102(关闭防火墙,配置IP),创建目录 /opt/software、/opt/module,并修改这两个目录的属主和属组都为当前用户,如用户 zlc;(2)再拷贝出两台客户机,如主机名为 hadoop103,hadoop104;(3)只在 hadoop102 客户机上:安装 JDK、Had原创 2021-10-04 15:42:45 · 2005 阅读 · 1 评论 -
【ELK技术栈】详解 SpringBoot 集成 ElasticSearch 之项目实战:关于索引的API操作、关于文档的API操作
文章目录1 相应的官方文档2 项目实战2.1 添加依赖2.2 添加配置类2.3 关于索引的API操作2.3.1 创建索引2.3.2 索引是否存在2.3.3 删除索引2.4 关于文档的API操作2.4.1 添加文档2.4.2 文档是否存在2.4.3 获取文档信息2.4.4 更新文档信息2.4.5 删除文档2.4.6 批量添加文档2.4.7 条件查询文档1 相应的官方文档1、ES 的依赖<dependency> <groupId>org.elasticsear原创 2021-09-23 20:56:01 · 337 阅读 · 0 评论 -
【ELK技术栈】使用 Kinaba 学习 ElasticSearch :Rest 风格说明、关于文档、索引的相关操作
前言:本文学习并总结自:https://www.bilibili.com/video/BV17a4y1x7zq?p=91 Rest 风格说明2 基础操作:关于索引3 基础操作:关于文档原创 2021-09-23 13:17:28 · 181 阅读 · 0 评论 -
【ELK技术栈】ElasticSearch 核心概念,IK 分词器的概述、安装、使用
本文学习自:https://www.bilibili.com/video/BV17a4y1x7zq?p=8文章目录1 ES 核心概念2 什么是 IK 分词器3 安装 IK 分词器4 使用 IK 分词器1 ES 核心概念分片(Shard):ES的“分片(shard)”机制可将一个索引内部的数据分布地存储于多个节点,它通过将一个ES索引切分为多个底层物理的Lucene索引 + 倒排索引的数据结构,完成索引数据的分割存储功能,这每一个物理的Lucene索引称为一个分片(shard)。这样.原创 2021-09-21 18:57:19 · 672 阅读 · 0 评论 -
【ELK技术栈】Kibana 是什么、如何安装、开发工具 Dev Tools、如何汉化 Kiban
文章目录1 Kibana 是什么2 Kibana 安装3 开发工具 Dev Tools4 Kibana 汉化1 Kibana 是什么2 Kibana 安装官方下载链接我在安装、解压后,首先启动 ElasticSearch,再启动 Kibana 的 bat 启动文件,但是在启动时出现报错:我认为可能是运行内存空间不足的原因导致启动不了,因此又修改了配置文件:还是报错:无法从Elasticsearch节点检索版本信息。请求超时。看了看版本,也是一样的,没有问题:指定的 ES 地址也原创 2021-09-19 18:00:32 · 2584 阅读 · 0 评论 -
【ELK技术栈】 ElasticSearch是什么,如何安装与启动测试、可视化 head 插件 安装
前言:目前我在学习阶段,安装所在的电脑系统是 Windows 10 系统。文章目录1 ElasticSearch 是什么2 ElasticSearch 安装3 ElasticSearch 可视化 head 插件 安装1 ElasticSearch 是什么2 ElasticSearch 安装官网下载链接3、启动访问3 ElasticSearch 可视化 head 插件 安装GitHub上的下载链接这是一个前端项目,需要有 Node.js 环境才可以运行安装依赖首先安装.原创 2021-09-19 17:30:22 · 101 阅读 · 0 评论 -
【ELK技术栈】ElasticSearch、Solr 和 Lucene 的区别,什么是 ELK 技术栈
前言:学习自视频教程:https://www.bilibili.com/video/BV17a4y1x7zq?p=5官方文档:https://www.elastic.co/guide/en/elasticsearch/reference/7.14/zip-windows.html文章目录1 ElasticSearch 概述2 ES、Solr 和 Lucene 的区别2.1 ES 和 Solr 速度比较2.2 ES 和 Solr 总结3 ElasticSearch 安装4 ElasticSearch.原创 2021-09-19 13:39:02 · 287 阅读 · 0 评论