Mmj666-CSDN博客

原创东软跨境电商数仓开发进度

东软睿购跨境电商数仓开发进度（持续更新中~敬请期待）

2022-05-28 17:02:42 684 1

最后的最后，在接受一个系统时，我们不能只了解该系统的源码以及如何运作，我们更要站在一个高层级的视角去认知我们所接手的项目，我们这个项目解决了什么痛点问题，我们的上下游都是谁，我们需要从上游获得哪些支持，需要给予下游哪些帮助.也许你会觉得没必要，但是当你去更深一步了解这些，相信你会对接手的这个系统有更深刻的理解！同时还需要了解系统中各个组件之间的协作关系，以及数据流的流向。2.了解数据来源和数据去向：需要了解数据来源的种类和来源方式，例如数据采集、数据同步等，以及数据的去向，包括数据存储、数据分析等。

2023-04-13 18:19:25 401

原创（6）Linux学习之环境变量

Linux环境变量可以帮助我们提升Linux shell的体验，学完本章，你将了解到关于Linux环境变量的方方面面，可以在工作当中熟练调整环境变量！

2023-02-20 17:26:44 310

原创（四）Python--数据容器

python数据容器相关笔记

2022-10-25 19:36:45 665

原创（三）Python--函数

python函数相关的知识

2022-10-25 19:35:07 523

原创（二）Python--判断与循环

判断和循环语法

2022-10-25 15:11:39 348

原创（1）Python--基础语法

Python的基础语法，用于python的入门

2022-10-25 11:52:03 470

原创 12.数据仓库搭建之ADS层搭建

12.数据仓库搭建之ADS层搭建

2022-07-14 16:09:49 3599 4

原创 11.数据仓库搭建之DWS层搭建

11.数据仓库搭建之DWS层搭建

2022-07-14 16:03:23 3102

原创 10.数据仓库搭建之DWD层搭建

10.数据仓库搭建之DWD层搭建

2022-07-14 15:53:58 3268

原创 9.数据仓库搭建之DIM层搭建

9.数据仓库搭建之DIM层搭建

2022-07-14 15:48:41 2421

原创 8.数据仓库之ODS层搭建

8.数据仓库之ODS层搭建

2022-07-14 15:38:59 1781

原创 7.数据仓库搭建之数据仓库环境准备

7.数据仓库搭建之数据仓库环境准备

2022-07-14 15:25:26 983

原创 6.数据仓库搭建之数据仓库设计

数据仓库搭建之数据仓库设计

2022-07-02 19:52:53 3299

原创 5.1数据采集通道搭建之业务数据采集通道搭建

业务采集通道的搭建

2022-07-02 19:19:28 1011

原创 5.数据采集通道搭建之业务分析

5.数据采集通道搭建之业务分析

2022-06-21 16:20:22 657

原创 4.东软跨境电商数仓项目--数据采集通道搭建之用户行为数据采集通道搭建（2022.6.1-2022.6.4）

东软跨境电商数仓项目--数据采集通道搭建之用户行为数据采集通道搭建（2022.6.1-2022.6.4）

2022-06-05 23:46:02 617

原创 3.东软跨境电商数仓项目架构设计

东软跨境电商数仓项目架构设计

2022-05-31 20:03:30 1684

原创 2.东软跨境电商数仓项目技术选型

东软跨境电商数据仓库项目技术选型（2022/05/30）

2022-05-30 20:04:50 1322

原创 1.东软跨境电商数仓需求规格说明文档

1.东软跨境电商数仓需求规格说明文档

2022-05-29 18:50:08 1392

原创电商用户行为实时分析系统（Flink1.10.1）

Flink项目，Flink初体验（Flink1.10.1版本哟~）

2022-05-28 20:32:24 2928 9

原创 Spark核心编程（4）--Spark运行架构

Spark核心编程（4）–Spark运行架构4.1 运行架构Spark 框架的核心是一个计算引擎，整体来说，它采用了标准 master-slave 的结构4.2核心组件Spark 框架有两个核心组件：4.2.1 DriverSpark 驱动器节点，用于执行 Spark 任务中的 main 方法，负责实际代码的执行工作。Driver 在 Spark 作业执行时主要负责：将用户程序转化为作业（job）在 Executor 之间调度任务(task)跟踪 Executor 的执行情况通过

2021-11-29 21:13:43 189

原创 1 SparkSQL概述

1 SparkSQL概述1.1 SparkSQL是什么Spark SQL 是 Spark 用于结构化数据(structured data)处理的 Spark 模块。1.2 Hive and SparkSQLShark出现了两个分支：SparkSQL 和 Hive on SparkSparkSQL 作为 Spark 生态的一员继续发展，而不再受限于 Hive，只是兼容 Hive；Hive on Spark 是一个 Hive 的发展计划，该计划将 Spark 作为 Hive 的底层引擎之一，

2021-11-25 20:27:32 618

原创 5. Spark核心编程（1）

5. Spark核心编程（1）Spark 计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是：RDD：弹性分布式数据集累加器：分布式共享只写变量广播变量：分布式共享只读变量5.1 RDD5.1.1 什么是RDD RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。

2021-11-25 17:16:52 174

原创 Scala初级实践——统计手机耗费流量（1）

Scala初级实践——统计手机耗费流量（1）【实验描述】本实验主要使用Scala语言来实现对手机流量的计算。在该实验中，共有四个需求：1）统计每一个手机号耗费的总上行流量、下行流量、总流量2）将统计结果按照手机归属地不同号段(手机号前3位)输出到不同文件中3）根据需求1）产生的结果再次对总流量进行排序。4）按照要求2）每个手机号段输出的文件中按照总流量内部排序。【实验目的】掌握Scala编程环境的配置安装，能够掌握Scala基本语法，掌握面向对象的编程思想，能够掌握函数式编程思想，能够运用S

2021-11-25 16:31:43 1608

原创 Hadoop：HDFS应用实践（1）

Hadoop：HDFS应用实践（1）实验题目：HDFS应用实践——网易云热评采集与存储模块实验环境：操作系统：Windows 10虚拟机环境：VMware Workstation 16 ProLinux系统：CentOS 7开发工具：IntelliJ IDEA 2020.2.1 x64JDK环境：JDK 1.8.0_301Hadoop版本：3.2.2实验内容：该网易云热评采集与存储模块主要有以下几个功能：上传网易云热评文件、下载网易云热评文件、复制网易云

2021-11-23 23:34:30 3208 1

原创 1. Spark概述

1. Spark概述1.1 Spark简介Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎1.2 Spark和Hadoop的关系Hadoop：hadoop是由java语言编写的，在分布式服务器集群上存储海量数据并运行分布式分析应用的开源框架作为Hadoop分布式文件系统，HDFS处于Hadoop生态圈的最下层，存储着所有的数据，支持着Hadoop的所有服务。MapReduce是一种编程模型。作为Hadoop的分布式计算模型，是Hadoop的核心。基于这个框架，分布

2021-11-23 22:59:21 262 2

大数据2023届秋招各中大厂常问面试题

内容概要：大数据2023届秋招各中大厂常问面试题适用人群：应届毕业生和各类实习生使用场景和目标：使用于在即将面试之前，由于面试题过多，不知该如何筛选最为常见的面试题来进行一波突击，这个博主亲身经历过的被问到过的面试题，问题涵盖BAT,TMD各个大厂，其中不乏一些核心问题被80%的大厂进行提问，如果在面试前看此文档进行一波小小的突击，势必在面试中取到更大的优势。阅读建议：适合在开始背面试题的初期和在面试前的时候进行翻阅并牢记答案要点。被面试题初期，可以对比，更有针对性的去准备；面试前，可以再回过头来进行一波巩固，避免由于面试题太多，而忽略了记忆的重点。牢记核心面试题答案，冲击理想的大厂，这不是临时抱佛脚，而是在能力积攒足够之后的一点推力，祝你面试顺利！

2023-02-20

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

Mmj666的博客