- 博客(27)
- 收藏
- 关注
原创 如何接手一个大数据项目
最后的最后,在接受一个系统时,我们不能只了解该系统的源码以及如何运作,我们更要站在一个高层级的视角去认知我们所接手的项目,我们这个项目解决了什么痛点问题,我们的上下游都是谁,我们需要从上游获得哪些支持,需要给予下游哪些帮助.也许你会觉得没必要,但是当你去更深一步了解这些,相信你会对接手的这个系统有更深刻的理解!同时还需要了解系统中各个组件之间的协作关系,以及数据流的流向。2.了解数据来源和数据去向:需要了解数据来源的种类和来源方式,例如数据采集、数据同步等,以及数据的去向,包括数据存储、数据分析等。
2023-04-13 18:19:25 300
原创 (6)Linux学习之环境变量
Linux环境变量可以帮助我们提升Linux shell的体验,学完本章,你将了解到关于Linux环境变量的方方面面,可以在工作当中熟练调整环境变量!
2023-02-20 17:26:44 223
原创 4.东软跨境电商数仓项目--数据采集通道搭建之用户行为数据采集通道搭建(2022.6.1-2022.6.4)
东软跨境电商数仓项目--数据采集通道搭建之用户行为数据采集通道搭建(2022.6.1-2022.6.4)
2022-06-05 23:46:02 512
原创 Spark核心编程(4)--Spark运行架构
Spark核心编程(4)–Spark运行架构4.1 运行架构Spark 框架的核心是一个计算引擎,整体来说,它采用了标准 master-slave 的结构4.2核心组件Spark 框架有两个核心组件:4.2.1 DriverSpark 驱动器节点,用于执行 Spark 任务中的 main 方法,负责实际代码的执行工作。Driver 在 Spark 作业执行时主要负责:将用户程序转化为作业(job)在 Executor 之间调度任务(task)跟踪 Executor 的执行情况通过
2021-11-29 21:13:43 148
原创 1 SparkSQL概述
1 SparkSQL概述1.1 SparkSQL是什么Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块。1.2 Hive and SparkSQLShark出现了两个分支:SparkSQL 和 Hive on SparkSparkSQL 作为 Spark 生态的一员继续发展,而不再受限于 Hive,只是兼容 Hive;Hive on Spark 是一个 Hive 的发展计划,该计划将 Spark 作为 Hive 的底层引擎之一,
2021-11-25 20:27:32 558
原创 5. Spark核心编程(1)
5. Spark核心编程(1)Spark 计算框架为了能够进行高并发和高吞吐的数据处理,封装了三大数据结构,用于 处理不同的应用场景。三大数据结构分别是:RDD:弹性分布式数据集累加器:分布式共享只写变量广播变量:分布式共享只读变量5.1 RDD5.1.1 什么是RDD RDD(Resilient Distributed Dataset)叫做弹性分布式数据集,是 Spark 中最基本的数据 处理模型。代码中是一个抽象类,它代表一个弹性的、不可变、可分区、里面的元素可并行 计算的集合。
2021-11-25 17:16:52 120
原创 Scala初级实践——统计手机耗费流量(1)
Scala初级实践——统计手机耗费流量(1)【实验描述】本实验主要使用Scala语言来实现对手机流量的计算。在该实验中,共有四个需求:1)统计每一个手机号耗费的总上行流量、下行流量、总流量2)将统计结果按照手机归属地不同号段(手机号前3位)输出到不同文件中3)根据需求1)产生的结果再次对总流量进行排序。4)按照要求2)每个手机号段输出的文件中按照总流量内部排序。【实验目的】掌握Scala编程环境的配置安装,能够掌握Scala基本语法,掌握面向对象的编程思想,能够掌握函数式编程思想,能够运用S
2021-11-25 16:31:43 1527
原创 Hadoop:HDFS应用实践(1)
Hadoop:HDFS应用实践(1)实验题目:HDFS应用实践——网易云热评采集与存储模块实验环境:操作系统:Windows 10虚拟机环境:VMware Workstation 16 ProLinux系统:CentOS 7开发工具:IntelliJ IDEA 2020.2.1 x64JDK环境:JDK 1.8.0_301Hadoop版本:3.2.2实验内容: 该网易云热评采集与存储模块主要有以下几个功能:上传网易云热评文件、下载网易云热评文件、复制网易云
2021-11-23 23:34:30 3061 1
原创 1. Spark概述
1. Spark概述1.1 Spark简介Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎1.2 Spark和Hadoop的关系Hadoop:hadoop是由java语言编写的,在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架作为Hadoop分布式文件系统,HDFS处于Hadoop生态圈的最下层,存储着所有的数据,支持着Hadoop的所有服务。MapReduce是一种编程模型。作为Hadoop的分布式计算模型,是Hadoop的核心。基于这个框架,分布
2021-11-23 22:59:21 210 2
大数据2023届秋招各中大厂常问面试题
2023-02-20
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人