大数据
文章平均质量分 74
易逑实战数据
一个跨考生,致力于开发实战经验的分享
展开
-
关于HDFS的一些总结
HDFS是Hadoop大数据生态圈里重要的一部分,它主要用来进行文件存储,在数仓中,进行用户行为数仓建设时,也主要用来存储日志数据,接下来我们对其进行总结介绍。HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统,具有高容错、高吞吐量等特性,可以部署在低成本的硬件上。是 Hadoop 核心组件之一,作为最底层的分布式存储服务而存在。...原创 2022-06-21 18:52:29 · 1397 阅读 · 1 评论 -
关于Yarn的一些个人总结
在前面我们可以得出Yarn是Hadoop生态圈中一个重要得组成部分,主管资源管理,但是具体是如何进行资源管理的,却是需要进行探索的事,它又哪几部分组成,又由什么演变而来,各部分又有什么作用,它的产生又带来了哪些好处。Apache Hadoop YARN (Yet Another Resource Negotiator,另一种资源协调者)是一种新的 Hadoop 资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。..原创 2022-06-14 11:45:06 · 743 阅读 · 0 评论 -
有关Flink的一些个人总结(是什么-用来做什么-有什么优势-为什么选它-解决了什么问题)
在大数据技术日益发展的今天,涌现出越来越多性能优异的组件,其中Spark和flink是非常重要的部分,尤其是实时任务越来越重要,在此对Flink一些功能特性,包括组成,应用以及优缺点进行相应的总结Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,提供支持流处理和批处理两种类型应用的功能,现有的开源计算方案,会把流处理和批处理作为两种不同的应用类型:流处理一般需要支持低延迟、Exactly-once保证,而批处理需要支持高吞吐、高效处理。...原创 2022-06-14 11:34:54 · 4843 阅读 · 0 评论 -
Hbase组件的一些相关知识
在进行大数据开发等相应应用中,除了一些常用的大数据组件,利用Hive外,也有一些其他类型的组件,比如专属于大数据领域的Hbase开源数据库,在此对其进行了相应的总结。HBase是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。...原创 2022-06-13 21:27:47 · 406 阅读 · 0 评论 -
Hive组件相关知识点总结
在搭建数据仓库时,Hive组件在其中发挥了非常关键的作用,我们知道Hive是一个基于Hadoop的重要数据仓库工具,但具体如何应用则需要我们进一步进行探索。hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,能将SQL语句转变成MapReduce任务来执行。...原创 2022-06-13 10:23:37 · 960 阅读 · 0 评论 -
Spark一些个人总结
随着大数据技术的发展,一些更加优秀的组件被提了出来,比如现在最常用的Spark组件,基于RDD原理在大数据处理中占据了越来越重要的作用。在此我们探索了Spark的原理,以及其在大数据开发中的重要作用。...原创 2022-06-12 22:51:01 · 4761 阅读 · 0 评论 -
flume组件相关总结
在进行大数据开发过程中,flume是一个比较重要的组件,我们知道它是和日志采集有关的,但是具体如何对日志进行采集,在这里我们对其进行相应的总结。flume 是由 cloudera 软件公司产出的可分布式日志收集系统,后与 2009 年被捐赠了 apache 软件基金会,为hadoop 相关组件之一。......原创 2022-06-10 11:29:49 · 1265 阅读 · 0 评论 -
Kafka相关知识点总结
Kafka也是在Java以及数据开发中经常应用的一个组件,在我们的印象里,它总是和redis联系在一起,那么它主要解决了哪些问题呢?现在就由我们来对它进行相应的探索。原创 2022-06-08 22:22:01 · 317 阅读 · 0 评论 -
ZooKeeper的一些总结
Zookeeper作为一个分布式协调服务,在Java以及大数据开发中都遇到过,这里我们对Zookeeper进行一些相应的总结,以便更好地理解并对其进行应用。原创 2022-06-08 09:31:15 · 38984 阅读 · 0 评论 -
Spark快速入门
在学习大数据组件中,Spark是一个非常重要的部分,但由于项目因素,没有对Spark进行使用过,Spark在机器学习算法以及后端开发中都有比较多的应用,这里对Spark进行一些总结。Spark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。...原创 2022-06-06 19:07:08 · 297 阅读 · 0 评论 -
Hadoop组件的一些总结
关于Hadoop的一些总结,其组成以及它主要用来做什么原创 2022-06-04 21:54:26 · 237 阅读 · 2 评论 -
Sql的一些总结三(来源于MySQL必知必会)
文章目录前言一、创建高级联结使用表别名2.使用不同类型的联结1.自联结2.自然联结3.外部联结4.使用带聚集函数的联结5.使用联结和联结条件总结前言在使用数据库SQL时,除了一些对表进行查询操作的函数,对于数据表联合求解的一些函数也比较重要。一、创建高级联结使用表别名一般用as对某些数据起别名,其中比较重要的函数如下:as:selectconcat(Rtrim(vend_name),‘(’,Rtrim(vend_country),‘)’)as vend_title from vendors o原创 2022-05-27 10:29:17 · 256 阅读 · 0 评论 -
必要的sql总结二(MySQL必知必会)
文章目录一、日期和时间处理函数二、汇总数据三、分组数据总结一、日期和时间处理函数1.AddDate():增加一个日期(天、周等)2.AddTime():增加一个时间(时、分等)3.CurDate():返回当前日期4.CurTime():返回当前时间5.Date():返回日期时间的日期部分6.DateDiff():计算两个日期之差7.Date_Add():高度灵活的日期运算函数8.Date_Format():返回一个格式化的日期或事件串9.Day():返回一个日期的天数部分10.Day原创 2022-05-27 09:53:17 · 120 阅读 · 0 评论 -
必要的sql函数总结(MySQL必知必会)
文章目录前言一、求列的一些函数二、过滤数据三.创建计算字段四.文本处理函数总结前言在进行SQL学习过程中,牛客网的学习比较零散,难以泛用,所以找到一本比较合适的书籍《MySQL必知必会》,在此书中对一些必要的SQL函数进行了相应的总结。一、求列的一些函数1.单个列:select prod_name from products2.多个列:select prod_id,prod_name,prod_price from products3.全部:select* from products4.去原创 2022-05-24 22:38:36 · 298 阅读 · 0 评论 -
Flink之用户行为分析之两条流的订单交易匹配
文章目录订单交易匹配总结订单交易匹配对于订单支付事件,用户支付完成其实并不算完,我们还得确认平台账户上是否到账了。而往往这会来自不同的日志信息,所以我们要同时读入两条流的数据来做合并 处 理 。 这 里 我 们 利 用 connect 将两 条 流 进 行 连 接 , 然 后 用 自 定 义 的CoProcessFunction 进行处理。case class OrderEvent( orderId: Long, eventType: String, txId: String, eventTime:原创 2022-05-22 21:50:50 · 303 阅读 · 0 评论 -
Flink电商用户行为分析之市场营销商业指标分析
文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言在进行PV以及UV统计之后,作为电商应用,其市场营销商业提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport s原创 2022-05-22 21:09:26 · 309 阅读 · 0 评论 -
Zookeeper(分布式协调服务)
目录一、Zookeeper是什么?二、Zookeeper角色1.Leader2.Follower3.Observer三、ZAB协议四、ZAB协议4阶段1.Leader election(选举阶段)2.Discovery(发现阶段)3.Synchronization(同步阶段)4.Broadcast(广播阶段)总结一、Zookeeper是什么?Zookeeper 是一个分布式协调服务,可用于服务发现,分布式锁,分布式领导选举,配置管理等。Zookeeper 提供了一个类似于 Linux 文件系统的树形原创 2022-05-14 18:55:52 · 216 阅读 · 0 评论 -
JVM的一些总结(二)
文章目录前言一、JVM运行时内存1.新生代2.老年代3.永久代二、垃圾回收机制1.确定垃圾2.标记清除算法3.复制算法4.标记整理算法5.分代收集算法总结前言JVM的GC机制是非常重要的一部分,在此我们对GC机制进行一些总结。一、JVM运行时内存Java 堆从 GC 的角度还可以细分为: 新生代(Eden 区、From Survivor 区和 To Survivor 区)和老年代。1.新生代是用来存放新生的对象。一般占据堆的 1/3 空间。由于频繁创建对象,所以新生代会频繁触发MinorGC原创 2022-05-13 20:47:07 · 128 阅读 · 0 评论 -
做数仓项目所遇到的一些问题
前言在项目实际运行中,并不一定会像视频一样运行那么顺利,总会遇到一些大大小小的问题,而这些问题可能才是工作中最大可能遇到的,这里对部分问题进行一些总结。一、flume采集数据不到hdfs上flume to kafka配置文件,粗心把a1.sources.r1.filegroups.f1的filegroups漏掉了,第一个拦截器api的parse写成parsearray二、hive用spark引擎的时候运行insert sql的时候报错连接不上spark客户端代码如下(示例):总结提示:这里原创 2022-05-13 20:17:53 · 1166 阅读 · 0 评论 -
JVM的一些总结(一)
前言在技术栈学习过程中,尤其是Java后台开发岗以及大数据岗,JVM都是绕不过去的一道关卡,这里主要是对JVM的一些个人学习感想,尤其是面对就业的学习。提示:以下是本篇文章正文内容,下面案例可供参考一、JVM的由来所有的程序运行所需要的底层机器指令都只是有限的若干条,从大型的UNIX机器到桌面个人计算机,都是基于那些设计精良而优美的指令集。但是这些指令集之间互不相容,这就使得程序的移植变得非常困难,所需时间甚至超过了重新编写一遍的时间。于是虚拟机的概念出现了。Java虚拟机(JVM)在多个平台上原创 2022-05-11 10:31:49 · 65 阅读 · 0 评论 -
sql练习(一)
前言sql语言在大数据开发是比较重要的一部分,对sql语言进行总结能更好地熟悉自己的大数据开发业务。j一、部分函数concat(,,_),顺序链接每一个字符concat_ws(’ ',last_name,first_name)使用第一个字符连接后两个每一个字符unique_idx_firstname:为first_name创建唯一索引创建视图:actor_name_view创建索引:idx_emp_no构造一个触发器audit_log,在向employee_test表中插入一条数据时,触.原创 2022-05-11 09:57:35 · 95 阅读 · 0 评论 -
关于23届大数据岗实习总结
个人情况,985本,双非硕,是为了转计算机调剂的。因为研一就开始专注就业方向了,在研一学了点后端开发。在研二这个时间点,为了更好的发展和专注,就选取了大数据开发方向。目前后端开发水平严重倒退,所以秋招估计就只试着冲大数据岗了。为了更好地复盘以及总结,准备尽量多写点博客,提升自己能力。基本上实习岗全投了,字节腾讯一面挂,感觉是自己没复习好中间件。其他的很多笔试挂,力扣太难了。阿里一面过,二面通知没hc了,开始养鱼池,后面才明白有排序这事。携程二面,开始问项目实现代码细节了,这时才明白,回头又复习了一波。然后原创 2022-05-08 22:40:29 · 1827 阅读 · 1 评论 -
大数据项目-用flink实现用户行为分析二
文章目录前言一、pandas是什么?二、使用步骤1.引入库2.读入数据总结前言提示:这里可以添加本文要记录的大概内容:例如:随着人工智能的不断发展,机器学习这门技术也越来越重要,很多人都开启了学习机器学习,本文就介绍了机器学习的基础内容。提示:以下是本篇文章正文内容,下面案例可供参考一、pandas是什么?示例:pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码如下(示例):import numpy as npimport原创 2021-11-27 20:41:01 · 1582 阅读 · 0 评论 -
第一个项目:基于flink的用户行为分析
项目场景:电商平台的用户行为比较频繁和复杂,由于用户量的巨大,可以收集到大量的用户行为数据。因此可以通过大数据技术对其进行深入挖掘和分析,从而得到感兴趣的指标来增强对风险的控制。此外,用户行为的数据多样,包括用户行为习惯数据和业务行为数据两大类。其中用户行为数据包括用户的登录、上线及时长点击浏览页面,可以进行流量统计和热门商品的统计从而深挖用户的特征;而业务行为数据是用户对每个业务所作的操作,分为两类,一类是能够明显地表现出用户兴趣的行为,我们可以对数据进行深入分析,得到用户画像;另一类则是常规的业务操原创 2021-11-16 21:07:35 · 1312 阅读 · 0 评论 -
数据建模知识点总结
数据建模知识点文章目录数据建模知识点前言一、数据建模基本流程二、实体,关系,属性1.实体2.属性和域3.关系三、键1.主键2.候选键3.可选键4.其他四、约束五、范式(规范化)1.第一范式(1NF)2.第二范式(2NF)3.第三范式(3NF)4.第四范式(4NF)5.第五范式(5NF)前言<font color=#999AAA :目前,由于互联网时代浪潮,产生的大量数据越来越有价值,而如何将这些数据利用起来已经成为了一门重要学问,这就是数据建模的相关知识。数据模型是将数据元素以标准化的原创 2021-10-29 10:47:44 · 1389 阅读 · 0 评论 -
关于Mapreduce的优化
MapReduce性能的瓶颈:作为分布式系统程序,MapReduce的瓶颈主要表现在两个方面:1.计算机性能:包括CPU、内存、磁盘健康、网络2.I/O操作优化:数据倾斜、Map和Reduce数设置不合理等所以优化方法主要从六个方面考虑:数据输入、Map阶段、Reduce阶段、I/O传输、数据倾斜问题和调参。数据输入:1.合并小文件:大量的小文件会产生大量的装载任务,增大Map任务装载次数。2.采用CombineTextInputFormat来作为输入,解决输入端大量小文件场景。Ma原创 2021-10-26 22:03:08 · 445 阅读 · 0 评论