自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(8)
  • 收藏
  • 关注

原创 大数据环境4--Spark和Mapreduce之间的关系

它提供了基于RDD(弹性分布式数据集)的编程模型,支持更丰富的转换操作,如map、filter、join等。此外,Spark支持在内存中进行计算,减少了I/O开销,提高了处理速度。:它是一个快速、通用的大规模数据处理引擎,支持多种计算模式,包括流处理、批处理、交互式查询和机器学习等。Spark和MapReduce都是大数据处理领域中的重要工具,它们在设计思路、应用场景和技术特性上存在一些差异,同时也有着密切的关系。:在某些场景下,Spark可以作为MapReduce的替代方案,提供更高效的数据处理能力。

2024-05-24 10:36:38 354

原创 大数据环境3--Hive和Spark之间的关系

然而,由于SparkSQL的执行引擎和数据模型,SparkSQL支持更多的高级功能和优化技术,如窗口函数、广播变量、UDF(用户自定义函数)等。:HiveQL和SparkSQL都支持与Hadoop的HDFS和Hive的元数据仓库(Metastore)集成,实现数据的存储和管理。:Hive和Spark都可以与Hadoop的HDFS和Hive的元数据仓库(Metastore)集成,实现数据的存储和管理。它们之间的关系是相互补充和协同工作的,可以根据具体的需求和场景选择合适的工具进行数据处理和分析。

2024-05-24 09:18:59 474

原创 大数据环境2--Transpoter和DataX之间的关系

Transpoter的设计理念是将数据传输和转换过程抽象为一系列可配置的步骤,使得用户可以轻松地构建和部署复杂的数据处理流程。:Transpoter适用于需要灵活配置和高度可扩展的数据传输和转换场景。:Transpoter是一个用于数据传输和转换的开源工具,支持多种数据源和目标之间的数据迁移。DataX则是阿里巴巴开源的离线数据同步工具,专注于实现异构数据源之间的稳定高效的数据同步。总之,Transpoter和DataX都是功能强大的大数据工具,它们在数据传输和同步方面有着广泛的应用。

2024-05-23 16:53:22 219 1

原创 大数据环境1--Workflow、Kettle、Xxl-job之间的关系

总之,Workflow、Kettle和Xxl-job都是大数据领域的任务调度和集成工具,它们各有特点,适用于不同的使用场景。:适用于需要快速搭建和部署任务调度系统的场景,支持分布式部署和横向扩展,可以应对大规模数据处理任务。:适用于需要管理复杂任务依赖关系的场景,支持多种任务类型,包括SQL、Java、Shell等。:适用于数据集成和ETL场景,支持多种数据源和目标,包括数据库、文件、Hadoop等。:这是一个通用的任务调度和集成框架,用于管理数据处理流程中的任务依赖关系。适用于数据集成和ETL场景。

2024-05-23 16:51:53 251 1

原创 大数据-XXL-Job工具

该平台主要用于解决企业级定时任务和异步任务调度等问题,提供了任务调度中心、执行器、注册中心和调度器等核心组件。3. **多种任务类型支持**:例如Shell脚本、Java任务、Spring Bean任务等,并且可以通过配置灵活扩展。2. **任务调度中心与执行器**:让用户可以方便地创建、管理和监控定时任务。4. **良好的可扩展性和容错性**:支持集群部署和动态扩容缩容等功能。1. **分布式任务调度**:能够实现任务的高性能和高可用性。

2024-05-21 11:16:24 352

原创 大数据-Workflow工具

例如,针对新用户的激励策略、召回潜在流失用户的策略、刺激老用户产生复购的返利策略等等,它们都是需要跨越很长时间周期的运营活动,并非短期或一次性的促销、领劵等运营活动。大数据Workflow工具通常指的是自动化工作流,可以将复杂、长期的运营策略简化为系列具有逻辑关系的运营活动,系统将会自动判断活动中的各个节点状态,并根据预设的触发条件来运行下一步将要执行的动作。此外,还有一些开源的大数据Workflow工具,它们可以帮助用户自动化处理和分析数据,提高工作效率。

2024-05-21 11:07:30 141

原创 MySQL自定义函数

除了使用系统为我们提供的函数以外,我们也可以自定义函数,并使用我们自定义的函数进行数据处理,唯一比较麻烦的就是函数定义后不能修改,只能删了重新写。MySQL的函数与Java中的方法类似,也可以添加参数和返回值,可以通过CREATE FUNCTION创建函数。begin 和 end 之间写函数的其他逻辑,begin和end就相当于Java中的花括号{ ... }create function 函数名称([参数列表]) returns 返回值类型。return后紧跟返回的结果。我们还可以在函数内部使用。

2024-03-07 17:57:25 168

原创 sql之开窗函数

rank()是排名,也为每一组的行生成一个序号,如果有相同的值会生成相同的序号,并且接下来的序号是不连序的。例如:有三个人并列第一名,第四名序号为四(DENSE_RANK()和RANK()类似,不同的是如果有相同的序号,那么接下来的序号不会间断例如:有三个人并列第一,第四名序号为2(row_number()是为每组的行设置一个连续的递增的数字(

2024-03-06 16:33:38 241

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除