chenmingqi322304
码龄7年
关注
提问 私信
  • 博客:14,217
    14,217
    总访问量
  • 39
    原创
  • 2,302,533
    排名
  • 6
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:上海市
  • 加入CSDN时间: 2018-01-19
博客简介:

chenmingqi322304的博客

查看详细资料
个人成就
  • 获得2次点赞
  • 内容获得1次评论
  • 获得20次收藏
创作历程
  • 19篇
    2023年
  • 18篇
    2022年
  • 1篇
    2021年
  • 1篇
    2019年
成就勋章
TA的专栏
  • 大数据进阶之路
    25篇
  • IO流
    1篇
创作活动更多

2024 博客之星年度评选报名已开启

博主的专属年度盛宴,一年仅有一次!MAC mini、大疆无人机、华为手表等精美奖品等你来拿!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

【博学谷学习记录】超强总结,用心分享|大数据之Doris

过多的物化视图,会影响导入数据的效率,比如有20张物化视图,则相当于导入20张表,但不影响查询性能,在有物化索引或物化视图的情况下,性能会更好;目前的查询分析非常多,并且还在不断的涌现出来,引擎层出不穷,各有优势也有其缺点,比如ADB、Hologres、Presto、Kylin、Hbase、Doris,这些产品本质上都是用资源换时间,或者空间换时间,本质上就是计算机制重构(比如MPP)、硬件提速(比如SSD磁盘)、索引提速(比如位图)、空间转换(比如预计算)等维度是提升性能。元数据的读写满足顺序一致性。
原创
发布博客 2023.05.22 ·
314 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【博学谷学习记录】超强总结,用心分享|大数据之spark优化

在大数据计算领域,Spark已经成为了越来越流行、越来越受欢迎的计算平台之一。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围与前景非常广泛。在美团•大众点评,已经有很多同学在各种项目中尝试使用Spark。大多数同学(包括笔者在内),最初开始尝试使用Spark的原因很简单,主要就是为了让大数据计算作业的执行速度更快、性能更高。然而,通过Spark开发出高性能的大数据计算作业,并不是那么简单的。如果没有对Spark作业进行合理的调
原创
发布博客 2023.05.15 ·
219 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【博学谷学习记录】超强总结,用心分享|大数据之hive优化

原因是在Join操作的Reduce阶段,位于Join操作符左边的表的内容会被加载进内存,将条目少的表放在左边,可以有效减少发生OOM错误的几率。出现数据倾斜时,可能就是你的代码中使用了这些算子中的某一个所导致的。因为COUNT DISTINCT操作需要用一个Reduce Task来完成,这一个Reduce需要处理的数据量太大,就会导致整个Job很难完成,一般COUNT DISTINCT使用先GROUP BY再COUNT的方式替换,虽然会多用一个Job来完成,但在数据量大的情况下,这个绝对是值得的。
原创
发布博客 2023.05.10 ·
169 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【博学谷学习记录】超强总结,用心分享|大数据之Hudi

对于 Merge-On-Read Table,整体的结构有点像 LSM-Tree,用户的写入先写入到 delta data 中,这部分数据使用行存,这部分 delta data 可以手动 merge 到存量文件中,整理为 parquet 的列存结构。更新update:在更新记录时,Hudi会先找到包含更新数据的文件,然后再使用更新值(最新的数据)重写该文件,包含其他记录的文件保持不变。简称COW,顾名思义,它是在数据写入的时候,复制一份原来的拷贝,在其基础上添加新数据。
原创
发布博客 2023.05.04 ·
210 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【博学谷学习记录】超强总结,用心分享|大数据之flinkCDC

Flink CDC 基于数据库日志的 Change Data Caputre 技术,实现了全量和增量的一体化读取能力,并借助 Flink 优秀的管道能力和丰富的上下游生态,支持捕获多种数据库的变更,并将这些变更实时同步到下游存储。官网链接:https://ververica.github.io/flink-cdc-connectors/github链接:https://github.com/ververica/flink-cdc-connectors。
原创
发布博客 2023.04.23 ·
4412 阅读 ·
2 点赞 ·
0 评论 ·
10 收藏

【博学谷学习记录】超强总结,用心分享|大数据之flink UDF函数

UDF函数,User-Defined Function。
原创
发布博客 2023.04.17 ·
255 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【博学谷学习记录】超强总结,用心分享|大数据之Watermark

推迟窗口触发的时间,实现方式:通过当前窗口中最大的eventTime-延迟时间所得到的Watermark与窗口原始触发时间进行对比,当Watermark大于窗口原始触发时间时则触发窗口执行!上图中,我们设置的允许最大延迟到达时间为2s,所以时间戳为5s的事件对应的Watermark是3s,时间戳为9s的事件的Watermark是7s,如果我们的窗口1是1s-3s,窗口2是4s-6s,那么时间戳为5s的事件到达时的Watermarker恰好触发窗口1,时间戳为9s的事件到达时的Watermark触发窗口2。
原创
发布博客 2023.04.10 ·
70 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【博学谷学习记录】超强总结,用心分享|大数据之Flink与Spark的区别

如果有多个流,则需要进行对齐,比如说多个源数据流达到第一个操作符,其中有些流的Barrier n先到达操作符,那么操作符会等待其它流的Barrier n到达,其它流的Barrier n全都到达之后,该操作符便发出Barrier n给下游操作符。不用对齐,也就是说,在快照时,Barrier n内的记录快照也将包含Barrier n+1的部分记录,而包含的这部分Barrier n+1的数据,会在Barrier n+1的checkpoint中被重放,也就是是说,这部分数据将是重复的。适合对实时性要求严格的需求。
原创
发布博客 2023.04.03 ·
446 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【博学谷学习记录】超强总结,用心分享|大数据之FLINK简介

Flink是一款真正意义上的流式处理框架。
原创
发布博客 2023.03.26 ·
90 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【博学谷学习记录】超强总结,用心分享|大数据之Spark MLlib

转换器是一种进行DF转换的算法。一个模型就是一个Transformer,它可以把一个不包含预测标签的测试集DF打上标签,转化成另一个包含预测标签的DF。文件频率DF(t,D)是包含词语的文档的个数。是一个Estimator,在一个数据集上,调用其fit(),产生一个IDFModel,该模型接收HashingTF产生的特征向量,然后计算每一个词在文档中出现的频次。HashingTF 是一个Transformer,接收词条的集合,然后把这些集合转化成固定长度的特征向量,该算法在哈希的同时会统计各个词条的词频。
原创
发布博客 2023.03.19 ·
246 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【博学谷学习记录】超强总结,用心分享|大数据之Spark 特征工程相关API

SparkMLlib 要求, 在训练模型的时候, 所有模型的API接受的传入特征的参数, 只能传一列, 如果我们有多列数据要作为特征输入给模型对象, 需要先通过VectorAssembler 拼成一列向量, 才能做后续的计算. 这里也是SparkMLlib 和其它机器学习框架有区别的地方。, 比大小 , 聚类中心点求和比较大的类别, 就是高价值, 聚类中心点求和比较小的, 就是相对低价值。K取不同的值, 计算轮廓系数, 选择轮廓系数比较大的聚类结果对应的K值。性别 男性, 女性, 未知 0,1,2。
原创
发布博客 2023.03.13 ·
318 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

【博学谷学习记录】超强总结,用心分享|大数据之ES

在数据写入内存的同时, 数据还会复制一份到磁盘上, 写入到translog文件中, 如果在refresh期间出现了异常, 可以从Translog中把数据恢复回来。当数据写入到ES的分片时, 先会写入内存buffer中(缓冲区), 从buffer中读取数据, 生成segment, 这个过程就是在维护倒排索引。segments的合并 es做了更新/删除操作的时候, 不会修改原来的数据, 在merge的时候才会真正的修改。从内存中的buffer → 内存中的segment 这个过程叫。hive命令行中执行。
原创
发布博客 2023.03.06 ·
393 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【博学谷学习记录】超强总结,用心分享|大数据之Spark streaming

​ 结构化流是构建在Spark SQL处理引擎之上的一个流式的处理引擎, 主要是针对无界数据的处理操作. 对于结构化流同样也支持多种语言的操作API: Java Python Scala R …
原创
发布博客 2023.02.26 ·
388 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【博学谷学习记录】超强总结,用心分享|大数据之Spark 函数

窗口函数格式:分析函数 over(partition by xxx order by xxx [asc|desc] [rows between xxx and xxx])学习的相关分析函数有那些?第一类: row_number() rank() dense_rank() ntile()第二类: 和聚合函数组合使用 sum() avg() max() min() count()第三类: lag() lead() first_value() last_value()如何在Spark SQL中使用呢?
原创
发布博客 2023.02.19 ·
145 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【博学谷学习记录】超强总结,用心分享|大数据之SparkSql

​ Spark SQL是Spark多种组件中其中一个, 主要是用于处理大规模的结构化数据什么是结构化数据:一份数据集, 每一行都是有固定的列, 每一列的类型都是一致的, 我们将这种数据集称为结构化的数据例如: MySQL表数据1 张三 202 李四 183 王五 21为什么要学习Spark SQL呢?1- 会SQL的人, 一定比会大数据的人多2- Spark SQL既可以编写SQL语句, 也可以编写代码, 甚至支持混合使用。
原创
发布博客 2023.02.12 ·
128 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

【博学谷学习记录】超强总结,用心分享|大数据之Spark RDD数据结构

RDD: 弹性分布式数据集出现目的: 为了能够支持更加高效的迭代计算操作早期的计算模型: 单机计算模型例如: MySQL / Excel单机的计算模型仅适用于: 小量数据集的处理操作在计算操作的时候, 只有一个进程, 在一个进程中通过不断的迭代完成最终的计算操作随着不断的发展, 整个社会数据量都在不断的增大, 原有单机的计算模型无法应对未来的数据处理需要, 怎么办呢?分布式计算模型。
原创
发布博客 2023.02.05 ·
156 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【博学谷学习记录】超强总结,用心分享|大数据之Spark

定义: Spark是一款用于大规模数据处理分布式的分析引擎MR: 是一款用于大规模的分布式的分析引擎MR存在的弊端:1- 计算效率慢: 大量的经过磁盘和内存之间的交互, 基于磁盘计算 IO比较大 (IO密集型框架)2- 使用API相对比较低级:大量的功能代码都需要程序员自己完成3- 迭代计算非常不方便什么是迭代计算:在计算过程中, 需要将计算划分为N个阶段, 每个阶段之间互相依赖, 后一个阶段必须等待前一个阶段执行完成, 然后才能执行后一个阶段。
原创
发布博客 2023.01.16 ·
108 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【博学谷学习记录】超强总结,用心分享|大数据之Python函数

所谓的函数就是一个被命名的独立的、完成特定功能的代码段(一段连续的代码),并可能给调用它的程序一个返回值。被命名的:在Python中,函数大多数是有名函数(普通函数)。当然Python中也存在没有名字的函数叫做匿名函数。独立的、完成特定功能的代码段:在实际项目开发中,定义函数前一定要先思考一下,这个函数是为了完成某个操作或某个功能而定义的。(函数的功能一定要专一)返回值:很多函数在执行完毕后,会通过return关键字返回一个结果给调用它的位置。
原创
发布博客 2023.01.08 ·
67 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【博学谷学习记录】超强总结,用心分享|大数据之Python

容器是一种把多个元素组织在一起的数据结构,容器中的元素可以逐个地迭代获取,可以用各种内置方法对容器中的数据进行增删改查等操作。: 容器就是存储数据的东西, 同时Python为了方便我们对容器中的数据进行增加删除修改查询专门提供了相应的方法便于我们操作。​ 注意:如果定义的元组只有一个数据,那么这个数据后面也好添加逗号,否则数据类型为唯一的这个数据的数据类型。元组特点:定义元组使用小括号,且使用逗号隔开各个数据,数据可以是不同的数据类型。字典的每个元素中的数据是可以修改的,只要通过key找到,即可修改。
原创
发布博客 2023.01.04 ·
107 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

【博学谷学习记录】超强总结,用心分享|大数据之Flume

​ flume目前是apache旗下的一款顶级开源项目, 最初是有cloudera公司开发的, 后期贡献给apache, flume是一款专门用于数据数据采集的工作, 主要的目的将数据从一端传输的另一端操作​ flume也是使用java语言开发的 , flume一般部署在数据采集节点​ 在flume中提供多种数据源的组件和多种目的地组件, 主要的目的是为了能适应更多的数据采集场景。
原创
发布博客 2022.12.25 ·
184 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多