易逑实战数据-CSDN博客

原创关于HDFS的一些总结

HDFS是Hadoop大数据生态圈里重要的一部分，它主要用来进行文件存储，在数仓中，进行用户行为数仓建设时，也主要用来存储日志数据，接下来我们对其进行总结介绍。HDFS （Hadoop Distributed File System）是 Hadoop 下的分布式文件系统，具有高容错、高吞吐量等特性，可以部署在低成本的硬件上。是 Hadoop 核心组件之一，作为最底层的分布式存储服务而存在。...

2022-06-21 18:52:29 1384 1

在前面我们可以得出Yarn是Hadoop生态圈中一个重要得组成部分，主管资源管理，但是具体是如何进行资源管理的，却是需要进行探索的事，它又哪几部分组成，又由什么演变而来，各部分又有什么作用，它的产生又带来了哪些好处。Apache Hadoop YARN （Yet Another Resource Negotiator，另一种资源协调者）是一种新的 Hadoop 资源管理器，它是一个通用资源管理系统，可为上层应用提供统一的资源管理和调度，它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。..

2022-06-14 11:45:06 727

原创有关Flink的一些个人总结（是什么-用来做什么-有什么优势-为什么选它-解决了什么问题）

在大数据技术日益发展的今天，涌现出越来越多性能优异的组件，其中Spark和flink是非常重要的部分，尤其是实时任务越来越重要，在此对Flink一些功能特性，包括组成，应用以及优缺点进行相应的总结Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台，提供支持流处理和批处理两种类型应用的功能,现有的开源计算方案，会把流处理和批处理作为两种不同的应用类型：流处理一般需要支持低延迟、Exactly-once保证，而批处理需要支持高吞吐、高效处理。...

2022-06-14 11:34:54 4560

原创 Hbase组件的一些相关知识

在进行大数据开发等相应应用中，除了一些常用的大数据组件，利用Hive外，也有一些其他类型的组件，比如专属于大数据领域的Hbase开源数据库，在此对其进行了相应的总结。HBase是一个分布式的、面向列的开源数据库，该技术来源于 Fay Chang 所撰写的Google论文“Bigtable：一个结构化数据的分布式存储系统”。...

2022-06-13 21:27:47 397

原创 Hive组件相关知识点总结

在搭建数据仓库时，Hive组件在其中发挥了非常关键的作用，我们知道Hive是一个基于Hadoop的重要数据仓库工具，但具体如何应用则需要我们进一步进行探索。hive是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，能将SQL语句转变成MapReduce任务来执行。...

2022-06-13 10:23:37 942

原创 Spark一些个人总结

随着大数据技术的发展，一些更加优秀的组件被提了出来，比如现在最常用的Spark组件，基于RDD原理在大数据处理中占据了越来越重要的作用。在此我们探索了Spark的原理，以及其在大数据开发中的重要作用。...

2022-06-12 22:51:01 4722

原创 flume组件相关总结

在进行大数据开发过程中，flume是一个比较重要的组件，我们知道它是和日志采集有关的，但是具体如何对日志进行采集，在这里我们对其进行相应的总结。flume 是由 cloudera 软件公司产出的可分布式日志收集系统，后与 2009 年被捐赠了 apache 软件基金会，为hadoop 相关组件之一。......

2022-06-10 11:29:49 1226

原创 Kafka相关知识点总结

Kafka也是在Java以及数据开发中经常应用的一个组件，在我们的印象里，它总是和redis联系在一起，那么它主要解决了哪些问题呢？现在就由我们来对它进行相应的探索。

2022-06-08 22:22:01 305

原创 ZooKeeper的一些总结

Zookeeper作为一个分布式协调服务，在Java以及大数据开发中都遇到过，这里我们对Zookeeper进行一些相应的总结，以便更好地理解并对其进行应用。

2022-06-08 09:31:15 37480

原创 Spark快速入门

在学习大数据组件中，Spark是一个非常重要的部分，但由于项目因素，没有对Spark进行使用过，Spark在机器学习算法以及后端开发中都有比较多的应用，这里对Spark进行一些总结。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。...

2022-06-06 19:07:08 293

原创 Hadoop组件的一些总结

关于Hadoop的一些总结，其组成以及它主要用来做什么

2022-06-04 21:54:26 233 2

原创 Sql的一些总结三(来源于MySQL必知必会)

文章目录前言一、创建高级联结使用表别名2.使用不同类型的联结1.自联结2.自然联结3.外部联结4.使用带聚集函数的联结5.使用联结和联结条件总结前言在使用数据库SQL时，除了一些对表进行查询操作的函数，对于数据表联合求解的一些函数也比较重要。一、创建高级联结使用表别名一般用as对某些数据起别名，其中比较重要的函数如下：as:selectconcat(Rtrim(vend_name),‘(’,Rtrim(vend_country),‘)’)as vend_title from vendors o

2022-05-27 10:29:17 252

原创必要的sql总结二(MySQL必知必会)

文章目录一、日期和时间处理函数二、汇总数据三、分组数据总结一、日期和时间处理函数1.AddDate():增加一个日期(天、周等)2.AddTime():增加一个时间(时、分等)3.CurDate():返回当前日期4.CurTime():返回当前时间5.Date():返回日期时间的日期部分6.DateDiff():计算两个日期之差7.Date_Add():高度灵活的日期运算函数8.Date_Format():返回一个格式化的日期或事件串9.Day():返回一个日期的天数部分10.Day

2022-05-27 09:53:17 116

原创必要的sql函数总结(MySQL必知必会)

文章目录前言一、求列的一些函数二、过滤数据三.创建计算字段四.文本处理函数总结前言在进行SQL学习过程中，牛客网的学习比较零散，难以泛用，所以找到一本比较合适的书籍《MySQL必知必会》，在此书中对一些必要的SQL函数进行了相应的总结。一、求列的一些函数1.单个列：select prod_name from products2.多个列：select prod_id,prod_name,prod_price from products3.全部：select* from products4.去

2022-05-24 22:38:36 292

原创 Flink之用户行为分析之两条流的订单交易匹配

文章目录订单交易匹配总结订单交易匹配对于订单支付事件，用户支付完成其实并不算完，我们还得确认平台账户上是否到账了。而往往这会来自不同的日志信息，所以我们要同时读入两条流的数据来做合并处理。这里我们利用 connect 将两条流进行连接，然后用自定义的CoProcessFunction 进行处理。case class OrderEvent( orderId: Long, eventType: String, txId: String, eventTime:

2022-05-22 21:50:50 296

原创 Flink电商用户行为分析之市场营销商业指标分析

文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言在进行PV以及UV统计之后，作为电商应用，其市场营销商业提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport s

2022-05-22 21:09:26 300

原创 Zookeeper(分布式协调服务)

目录一、Zookeeper是什么？二、Zookeeper角色1.Leader2.Follower3.Observer三、ZAB协议四、ZAB协议4阶段1.Leader election（选举阶段）2.Discovery（发现阶段）3.Synchronization（同步阶段）4.Broadcast（广播阶段）总结一、Zookeeper是什么？Zookeeper 是一个分布式协调服务，可用于服务发现，分布式锁，分布式领导选举，配置管理等。Zookeeper 提供了一个类似于 Linux 文件系统的树形

2022-05-14 18:55:52 213

原创 JVM的一些总结(二)

文章目录前言一、JVM运行时内存1.新生代2.老年代3.永久代二、垃圾回收机制1.确定垃圾2.标记清除算法3.复制算法4.标记整理算法5.分代收集算法总结前言JVM的GC机制是非常重要的一部分，在此我们对GC机制进行一些总结。一、JVM运行时内存Java 堆从 GC 的角度还可以细分为: 新生代(Eden 区、From Survivor 区和 To Survivor 区)和老年代。1.新生代是用来存放新生的对象。一般占据堆的 1/3 空间。由于频繁创建对象，所以新生代会频繁触发MinorGC

2022-05-13 20:47:07 123

原创做数仓项目所遇到的一些问题

前言在项目实际运行中，并不一定会像视频一样运行那么顺利，总会遇到一些大大小小的问题，而这些问题可能才是工作中最大可能遇到的，这里对部分问题进行一些总结。一、flume采集数据不到hdfs上flume to kafka配置文件，粗心把a1.sources.r1.filegroups.f1的filegroups漏掉了，第一个拦截器api的parse写成parsearray二、hive用spark引擎的时候运行insert sql的时候报错连接不上spark客户端代码如下（示例）：总结提示：这里

2022-05-13 20:17:53 1144

原创 JVM的一些总结(一)

前言在技术栈学习过程中，尤其是Java后台开发岗以及大数据岗，JVM都是绕不过去的一道关卡，这里主要是对JVM的一些个人学习感想，尤其是面对就业的学习。提示：以下是本篇文章正文内容，下面案例可供参考一、JVM的由来所有的程序运行所需要的底层机器指令都只是有限的若干条，从大型的UNIX机器到桌面个人计算机，都是基于那些设计精良而优美的指令集。但是这些指令集之间互不相容，这就使得程序的移植变得非常困难，所需时间甚至超过了重新编写一遍的时间。于是虚拟机的概念出现了。Java虚拟机(JVM)在多个平台上

2022-05-11 10:31:49 58

原创 sql练习(一)

前言sql语言在大数据开发是比较重要的一部分，对sql语言进行总结能更好地熟悉自己的大数据开发业务。j一、部分函数concat(，，_)，顺序链接每一个字符concat_ws(’ '，last_name，first_name)使用第一个字符连接后两个每一个字符unique_idx_firstname:为first_name创建唯一索引创建视图:actor_name_view创建索引:idx_emp_no构造一个触发器audit_log，在向employee_test表中插入一条数据时，触.

2022-05-11 09:57:35 87

原创关于23届大数据岗实习总结

个人情况，985本，双非硕，是为了转计算机调剂的。因为研一就开始专注就业方向了，在研一学了点后端开发。在研二这个时间点，为了更好的发展和专注，就选取了大数据开发方向。目前后端开发水平严重倒退，所以秋招估计就只试着冲大数据岗了。为了更好地复盘以及总结，准备尽量多写点博客，提升自己能力。基本上实习岗全投了，字节腾讯一面挂，感觉是自己没复习好中间件。其他的很多笔试挂，力扣太难了。阿里一面过，二面通知没hc了，开始养鱼池，后面才明白有排序这事。携程二面，开始问项目实现代码细节了，这时才明白，回头又复习了一波。然后

2022-05-08 22:40:29 1806 1

原创大数据项目-用flink实现用户行为分析二

文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下（示例）：import numpy as npimport

2021-11-27 20:41:01 1569

原创大数据方向三篇经典论文读后感Bigtable

Google Bigtable：Bigtable 是一个分布式的结构化数据存储系统，它被设计用来处理海量数据：通常是分布在数千台普通服务器上的 PB 级的数据。Bigtable和数据库很类似，使用了很多数据库的实现策略，Bigtable不支持完整的关系数据模型；与之相反，Bigtable为客户提供了简单的数据模型，Bigtable将存储数据都视为字符串，但是它本身不去解析这些字符串，客户程序会在把各种结构化或者半结构化的数据串行到这些字符串中。可以通过BigTable的模式参数来控制数据是存放在内存中、

2021-11-18 18:09:57 349

原创第一个项目：基于flink的用户行为分析

项目场景：电商平台的用户行为比较频繁和复杂，由于用户量的巨大，可以收集到大量的用户行为数据。因此可以通过大数据技术对其进行深入挖掘和分析，从而得到感兴趣的指标来增强对风险的控制。此外，用户行为的数据多样，包括用户行为习惯数据和业务行为数据两大类。其中用户行为数据包括用户的登录、上线及时长点击浏览页面，可以进行流量统计和热门商品的统计从而深挖用户的特征；而业务行为数据是用户对每个业务所作的操作，分为两类，一类是能够明显地表现出用户兴趣的行为，我们可以对数据进行深入分析，得到用户画像；另一类则是常规的业务操

2021-11-16 21:07:35 1304

原创数据建模知识点总结

数据建模知识点文章目录数据建模知识点前言一、数据建模基本流程二、实体，关系，属性1.实体2.属性和域3.关系三、键1.主键2.候选键3.可选键4.其他四、约束五、范式（规范化）1.第一范式(1NF)2.第二范式(2NF)3.第三范式(3NF)4.第四范式(4NF)5.第五范式(5NF)前言<font color=#999AAA ：目前，由于互联网时代浪潮，产生的大量数据越来越有价值，而如何将这些数据利用起来已经成为了一门重要学问，这就是数据建模的相关知识。数据模型是将数据元素以标准化的

2021-10-29 10:47:44 1325

原创关于Mapreduce的优化

MapReduce性能的瓶颈：作为分布式系统程序，MapReduce的瓶颈主要表现在两个方面：1.计算机性能：包括CPU、内存、磁盘健康、网络2.I/O操作优化：数据倾斜、Map和Reduce数设置不合理等所以优化方法主要从六个方面考虑：数据输入、Map阶段、Reduce阶段、I/O传输、数据倾斜问题和调参。数据输入：1.合并小文件：大量的小文件会产生大量的装载任务，增大Map任务装载次数。2.采用CombineTextInputFormat来作为输入，解决输入端大量小文件场景。Ma

2021-10-26 22:03:08 436

原创 Linux相关知识-鸟哥的Linux私房菜

计算机系统相关知识在学习linux系统之前，需要先了解一些计算机硬件相关知识，这里对这些知识进行归纳。文章目录计算机系统相关知识计算机是什么？1.计算机硬件的五大单元2.CPU的架构3.其他单元的设备4.计算机用途的分类4.计算机上面常用的计算单位总结要了解Linux系统，需要从硬件知识开始了解，所以接下来开始对计算机相关组成进行介绍和归纳。以下是本篇文章正文内容，下面案例可供参考计算机是什么？计算机是辅助人脑的最好工具，计算机其实是一种计算器，即接受用户输入指令与数据，经由中央处理器的数学

2021-04-08 18:58:46 52

原创 Gossip算法原理

Gossip算法原理一、Gossip背景二、Gossip特点三. Gossip本质四. Gossip节点的通信方式及收敛性一、Gossip背景Gossip算法如其名，灵感来自办公室八卦，只要一个人八卦一下，在有限的时间内所有的人都会知道该八卦的信息，这种方式也与病毒传播类似，因此Gossip有众多的别名“闲话算法”、“疫情传播算法”、“病毒感染算法”、“谣言传播算法”。但Gossip并不是一个新东西，之前的泛洪查找、路由算法都归属于这个范畴，不同的是Gossip给这类算法提供了明确的语义、具体实施方法

2021-03-21 17:44:22 516

原创力扣897：递增顺序查找树（以后均采用Java代码编写）

一、题目描述这是一个简单难度的有关树的题，题目描述为给你一个树，请你按中序遍历重新排列树，使树中最左边的结点现在是树的根，并且每个结点没有左子结点，只有一个右子结点。二、思路解析这很容易用到拆分重组思想，首先将树按照中序遍历将结点都提取出来，然后将结点进行重新建树，这需要一个媒介，在java中这个媒介就是可以是List集合，即用List存储按中序排序提取出来的结点，然后按照要求进行排序。这里注意List定义语句是List vals=new ArrayList()。三、代码解析按照思路我们就应该

2021-03-17 09:54:08 91

原创 Java知识难点：数据库索引

数据库索引原理前言一、索引举例二、索引分类1.普通索引2.唯一索引3.主键索引4.组合索引5.建立索引的时机6.索引的不足之处7.使用索引的注意事项总结前言数据库一般是基于MySQL实现的，在数据库表中，对字段建立索引可以加快查找速度，通过对这些索引的应用，可以使得MySQL的查询和运行更加高效，以下为七种MySQL索引类型提示：以下是本篇文章正文内容，下面案例可供参考一、索引举例在数据库表中，对字段建立索引可以大大提高查询速度。假如我们创建了一个 mytable表：CREATE TABL

2021-03-13 19:58:19 87

原创 Java难点：Java并发

创建线程的三种方法1.Runnable和Callable接口2.继承Thread类3.线程池线程池守护线程：程序运行时在后台提供服务的线程，mian()属于非守护线程。sleep（）休眠当前正在执行的线程，而yeild（）调用声明当前线程已经完成生命周期中的最重要部分。线程池的好处：1.降低资源消耗2.提高响应速度3.提高线程的可管理性Executor框架启动线程比使用Thread的start方法更好。...

2021-03-13 19:22:42 60

原创 Java知识难点集：自动装箱、自动拆箱

自动装箱、自动拆箱自动装箱：可以把一个基本类型的数据直接赋值给对应的包装类型；自动拆箱：可以把一个包装类型的对象直接赋值给对应的基本类型；通过自动装箱、自动拆箱功能，可以大大简化基本类型变量和包装类对象之间的转换过程。比如，某个方法的参数类型为包装类型，调用时我们所持有的数据却是基本类型的值，则可以不做任何特殊的处理，直接将这个基本类型的值传入给方法即可。这里举些例子说明哪些是包装类型哪些是基本数据类型。int是基本数据类型，Integer是int的包装类。所以二者在做==运算时，Integer会自

2021-03-10 10:55:39 89

hhfhhf12345678的博客