易逑实战数据
码龄7年
关注
提问 私信
  • 博客:74,938
    74,938
    总访问量
  • 37
    原创
  • 1,551,156
    排名
  • 4
    粉丝
  • 0
    铁粉

个人简介:一个跨考生,致力于开发实战经验的分享

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:美国
  • 加入CSDN时间: 2018-01-07
博客简介:

hhfhhf12345678的博客

查看详细资料
个人成就
  • 获得5次点赞
  • 内容获得4次评论
  • 获得25次收藏
创作历程
  • 22篇
    2022年
  • 14篇
    2021年
  • 1篇
    2020年
成就勋章
TA的专栏
  • 大数据
    26篇
  • 算法与数据结构
    4篇
  • 笔记
    1篇
  • Linux基本知识
  • 杂难知识点整理
    4篇
  • 力扣
    3篇
兴趣领域 设置
  • 大数据
    hbasehadoop
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

关于HDFS的一些总结

HDFS是Hadoop大数据生态圈里重要的一部分,它主要用来进行文件存储,在数仓中,进行用户行为数仓建设时,也主要用来存储日志数据,接下来我们对其进行总结介绍。HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。...
原创
发布博客 2022.06.21 ·
1440 阅读 ·
0 点赞 ·
1 评论 ·
2 收藏

关于Yarn的一些个人总结

在前面我们可以得出Yarn是Hadoop生态圈中一个重要得组成部分,主管资源管理,但是具体是如何进行资源管理的,却是需要进行探索的事,它又哪几部分组成,又由什么演变而来,各部分又有什么作用,它的产生又带来了哪些好处。Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。..
原创
发布博客 2022.06.14 ·
802 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

有关Flink的一些个人总结(是什么-用来做什么-有什么优势-为什么选它-解决了什么问题)

在大数据技术日益发展的今天,涌现出越来越多性能优异的组件,其中Spark和flink是非常重要的部分,尤其是实时任务越来越重要,在此对Flink一些功能特性,包括组成,应用以及优缺点进行相应的总结Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,提供支持流处理和批处理两种类型应用的功能,现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型:流处理一般需要支持低延迟、Exactly-once保证,而批处理需要支持高吞吐、高效处理。...
原创
发布博客 2022.06.14 ·
5279 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Hbase组件的一些相关知识

在进行大数据开发等相应应用中,除了一些常用的大数据组件,利用Hive外,也有一些其他类型的组件,比如专属于大数据领域的Hbase开源数据库,在此对其进行了相应的总结。HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。...
原创
发布博客 2022.06.13 ·
429 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Hive组件相关知识点总结

在搭建数据仓库时,Hive组件在其中发挥了非常关键的作用,我们知道Hive是一个基于Hadoop的重要数据仓库工具,但具体如何应用则需要我们进一步进行探索。hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。...
原创
发布博客 2022.06.13 ·
998 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Spark一些个人总结

随着大数据技术的发展,一些更加优秀的组件被提了出来,比如现在最常用的Spark组件,基于RDD原理在大数据处理中占据了越来越重要的作用。在此我们探索了Spark的原理,以及其在大数据开发中的重要作用。...
原创
发布博客 2022.06.12 ·
4866 阅读 ·
1 点赞 ·
0 评论 ·
4 收藏

flume组件相关总结

在进行大数据开发过程中,flume是一个比较重要的组件,我们知道它是和日志采集有关的,但是具体如何对日志进行采集,在这里我们对其进行相应的总结。flume 是由 cloudera 软件公司产出的可分布式日志收集系统,后与 2009 年被捐赠了 apache 软件基金会,为hadoop 相关组件之一。......
原创
发布博客 2022.06.10 ·
1305 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Kafka相关知识点总结

Kafka也是在Java以及数据开发中经常应用的一个组件,在我们的印象里,它总是和redis联系在一起,那么它主要解决了哪些问题呢?现在就由我们来对它进行相应的探索。
原创
发布博客 2022.06.08 ·
356 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

ZooKeeper的一些总结

Zookeeper作为一个分布式协调服务,在Java以及大数据开发中都遇到过,这里我们对Zookeeper进行一些相应的总结,以便更好地理解并对其进行应用。
原创
发布博客 2022.06.08 ·
45888 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Spark快速入门

在学习大数据组件中,Spark是一个非常重要的部分,但由于项目因素,没有对Spark进行使用过,Spark在机器学习算法以及后端开发中都有比较多的应用,这里对Spark进行一些总结。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。...
原创
发布博客 2022.06.06 ·
318 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hadoop组件的一些总结

关于Hadoop的一些总结,其组成以及它主要用来做什么
原创
发布博客 2022.06.04 ·
265 阅读 ·
1 点赞 ·
2 评论 ·
1 收藏

Sql的一些总结三(来源于MySQL必知必会)

文章目录前言一、创建高级联结使用表别名2.使用不同类型的联结1.自联结2.自然联结3.外部联结4.使用带聚集函数的联结5.使用联结和联结条件总结前言在使用数据库SQL时,除了一些对表进行查询操作的函数,对于数据表联合求解的一些函数也比较重要。一、创建高级联结使用表别名一般用as对某些数据起别名,其中比较重要的函数如下:as:selectconcat(Rtrim(vend_name),‘(’,Rtrim(vend_country),‘)’)as vend_title from vendors o
原创
发布博客 2022.05.27 ·
284 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

必要的sql总结二(MySQL必知必会)

文章目录一、日期和时间处理函数二、汇总数据三、分组数据总结一、日期和时间处理函数1.AddDate():增加一个日期(天、周等)2.AddTime():增加一个时间(时、分等)3.CurDate():返回当前日期4.CurTime():返回当前时间5.Date():返回日期时间的日期部分6.DateDiff():计算两个日期之差7.Date_Add():高度灵活的日期运算函数8.Date_Format():返回一个格式化的日期或事件串9.Day():返回一个日期的天数部分10.Day
原创
发布博客 2022.05.27 ·
137 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

必要的sql函数总结(MySQL必知必会)

文章目录前言一、求列的一些函数二、过滤数据三.创建计算字段四.文本处理函数总结前言在进行SQL学习过程中,牛客网的学习比较零散,难以泛用,所以找到一本比较合适的书籍《MySQL必知必会》,在此书中对一些必要的SQL函数进行了相应的总结。一、求列的一些函数1.单个列:select prod_name from products2.多个列:select prod_id,prod_name,prod_price from products3.全部:select* from products4.去
原创
发布博客 2022.05.24 ·
317 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Flink之用户行为分析之两条流的订单交易匹配

文章目录订单交易匹配总结订单交易匹配对于订单支付事件,用户支付完成其实并不算完,我们还得确认平台账户上是否到账了。而往往这会来自不同的日志信息,所以我们要同时读入两条流的数据来做合并 处 理 。 这 里 我 们 利 用 connect 将两 条 流 进 行 连 接 , 然 后 用 自 定 义 的CoProcessFunction 进行处理。case class OrderEvent( orderId: Long, eventType: String, txId: String, eventTime:
原创
发布博客 2022.05.22 ·
337 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink电商用户行为分析之市场营销商业指标分析

文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言在进行PV以及UV统计之后,作为电商应用,其市场营销商业提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport s
原创
发布博客 2022.05.22 ·
341 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Zookeeper(分布式协调服务)

目录一、Zookeeper是什么?二、Zookeeper角色1.Leader2.Follower3.Observer三、ZAB协议四、ZAB协议4阶段1.Leader election(选举阶段)2.Discovery(发现阶段)3.Synchronization(同步阶段)4.Broadcast(广播阶段)总结一、Zookeeper是什么?Zookeeper 是一个分布式协调服务,可用于服务发现,分布式锁,分布式领导选举,配置管理等。Zookeeper 提供了一个类似于 Linux 文件系统的树形
原创
发布博客 2022.05.14 ·
239 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

JVM的一些总结(二)

文章目录前言一、JVM运行时内存1.新生代2.老年代3.永久代二、垃圾回收机制1.确定垃圾2.标记清除算法3.复制算法4.标记整理算法5.分代收集算法总结前言JVM的GC机制是非常重要的一部分,在此我们对GC机制进行一些总结。一、JVM运行时内存Java 堆从 GC 的角度还可以细分为: 新生代(Eden 区、From Survivor 区和 To Survivor 区)和老年代。1.新生代是用来存放新生的对象。一般占据堆的 1/3 空间。由于频繁创建对象,所以新生代会频繁触发MinorGC
原创
发布博客 2022.05.13 ·
147 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

做数仓项目所遇到的一些问题

前言在项目实际运行中,并不一定会像视频一样运行那么顺利,总会遇到一些大大小小的问题,而这些问题可能才是工作中最大可能遇到的,这里对部分问题进行一些总结。一、flume采集数据不到hdfs上flume to kafka配置文件,粗心把a1.sources.r1.filegroups.f1的filegroups漏掉了,第一个拦截器api的parse写成parsearray二、hive用spark引擎的时候运行insert sql的时候报错连接不上spark客户端代码如下(示例):总结提示:这里
原创
发布博客 2022.05.13 ·
1221 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

JVM的一些总结(一)

前言在技术栈学习过程中,尤其是Java后台开发岗以及大数据岗,JVM都是绕不过去的一道关卡,这里主要是对JVM的一些个人学习感想,尤其是面对就业的学习。提示:以下是本篇文章正文内容,下面案例可供参考一、JVM的由来所有的程序运行所需要的底层机器指令都只是有限的若干条,从大型的UNIX机器到桌面个人计算机,都是基于那些设计精良而优美的指令集。但是这些指令集之间互不相容,这就使得程序的移植变得非常困难,所需时间甚至超过了重新编写一遍的时间。于是虚拟机的概念出现了。Java虚拟机(JVM)在多个平台上
原创
发布博客 2022.05.11 ·
83 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多