Act-F
码龄1年
关注
提问 私信
  • 博客:12,623
    12,623
    总访问量
  • 15
    原创
  • 135,826
    排名
  • 165
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:安徽省
  • 加入CSDN时间: 2024-03-16
博客简介:

2403_83630621的博客

查看详细资料
  • 原力等级
    当前等级
    2
    当前总分
    144
    当月
    4
个人成就
  • 获得243次点赞
  • 内容获得9次评论
  • 获得237次收藏
创作历程
  • 15篇
    2024年
成就勋章
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

flink与kafka基础知识

Flink是一个分布式实时计算框架。用于在无边界和有边界数据流上进行有状态的计算。Flink 能在所有常见集群环境中运行,并能以内存速度和任意规模进行计算。有状态:有状态计算是将当前批次结果加上上一批次计算的结果。无界流有定义流的开始,但没有定义流的结束(没有边界)。它们会无休止地产生数据。流处理。有界流有定义流的开始,也有定义流的结束。有界流(假如1000条数据),即可批处理(一次处理一批),也可以流处理(一条一条处理)。任意规模进行计算:指的是flink主从节点。jobmanager:driver端。
原创
发布博客 2024.07.31 ·
1374 阅读 ·
14 点赞 ·
0 评论 ·
26 收藏

Spark组件(sql,streaming)及spark优化

appName("udf自定义函数")//当你配置了hdfs等一些配置文件,那么默认读取路径是hadoop的,否则是本地.load("/bigdata30/students.csv")//读取路径是hadoop// df1.select($"id",$"name",concat(expr("'数加:'"),$"name") as "new_name").show()// concat(expr("'数加:'"),$"name")//对姓名做拼接。
原创
发布博客 2024.07.24 ·
1681 阅读 ·
49 点赞 ·
0 评论 ·
30 收藏

spark初识与内核

Spark,是一个大数据计算引擎,是一个用scala语言编写的计算框架,基于内存的快速、通用、可扩展的大数据分析引擎,能够计算大量的数据,例如hadoop中hdfs上的数据。
原创
发布博客 2024.07.14 ·
684 阅读 ·
9 点赞 ·
1 评论 ·
13 收藏

Scala基础知识

*** 可以在scala程序定义类* 类:构造方法 成员方法 成员变量* 构造方法:* 1、类所拥有的大括号中都是构造代码块的内容* 2、默认情况下,每一个类都应该提供一个无参的构造方法* 3、构造方法可以有许多*/val stu1: Student = new Student("李亮", 18)/*** 定义成员变量*/var _gender: String = _ // 这个下划线,就表示将来会赋予默认值/*** 构造方法也可以写多个*/
原创
发布博客 2024.07.10 ·
1654 阅读 ·
43 点赞 ·
6 评论 ·
30 收藏

开源离线同步工具DataX3.0

Framework:Framework用于连接reader和writer,是两者的数据传输通道,并处理缓冲,流控,并发,数据转换等核心技术问题。"column": ["*"], # 同步的列名 (* 表示所有)dataX生成模板的命令:datax.py -r mysqlreader -w hdfswriter。"value":"生成模板的""value": "表示不服""value": "张三""value": "真帅""value": "李四""value":"命令"
原创
发布博客 2024.07.09 ·
1023 阅读 ·
23 点赞 ·
0 评论 ·
10 收藏

FlinkX安装与使用

FlinkX是在袋鼠云内部广泛使用的基于flink的分布式离线和实时的数据同步框架,实现了多种异构数据源之间高效的数据迁移。FlinkX是一个数据同步工具,既可以采集静态的数据,比如MySQL,HDFS等,也可以采集实时变化的数据,比如MySQL ,binlog,Kafka等。
原创
发布博客 2024.07.09 ·
1490 阅读 ·
14 点赞 ·
0 评论 ·
22 收藏

SQOOP安装及使用

HDFS(分布式文件管理系统)--->RDBMS(关系型数据管理系统) export​要知道你要数据的来源和数据的目的地mysql:--connect--usernameroot--passwordxxxxxx--tableclazz30--m1​hdfs:'\t'​hive:1)bigdata30','2)','​# 增量需要添加的参数appendid3'\t'--check-column (hive的列名)last_mod--m1。
原创
发布博客 2024.06.26 ·
898 阅读 ·
19 点赞 ·
0 评论 ·
22 收藏

clickhouse学习

OLTP(联机事务处理系统)例如mysql等关系型数据库,在对于存储小数据量的时候,查询数据并分析速度很快,OLTP本身其实是一个逻辑上的概念,指的是某个数据库,主要是针对增删改操作的。里面的数据会经常的发生变化。OLAP(联机分析处理系统)指的是数据库中的数据长期不变,有着大量的历史数据,并且可以随时的做分析,而增删改操作很少。OLAP 种类系统架构的的特点:1、绝大多数是读请求2、数据以相当大的批次(> 1000行)更新,而不是单行更新;或者根本没有更新。
原创
发布博客 2024.06.25 ·
739 阅读 ·
18 点赞 ·
0 评论 ·
24 收藏

Hbase过滤器

通过ValueFilter与BinaryPrefixComparator 过滤出所有的单元格(cell)中值以 "施" 开头的学生 只查询列值是"施"前缀的这一列,其他列不查。1.比较运算符:LESS< , LESS_OR_EOUAL<=, EQUAL=, GREATER_OR_EQUAL>=通过FamilyFilter与SubstringComparator查询列簇名包含(xx)的所有列簇下面的数据。会返回满足条件的cell所在行的所有cell的值。会排除掉指定的列,其他的列全部返回。
原创
发布博客 2024.06.19 ·
269 阅读 ·
5 点赞 ·
0 评论 ·
7 收藏

Hbase进阶与API

5、如果时查询的话,可以对查询的结果进行分析。4、如何向一张表中同时添加一批数据。3、如何向一张表中添加一条数据。7、如何创建预分region表。5、如何获取一条数据。6、如果获取一批数据。2、创建数据库连接对象。3、创建数据库操作对象。
原创
发布博客 2024.06.16 ·
228 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

Hbase架构和基础命令

HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,用于存储海量的结构化或者半结构化,非结构化的数据(底层是字节数组做存储的)
原创
发布博客 2024.06.16 ·
253 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

数据中台建设方法论

通过数据采集工具将详细的原始数据采集到数据表中,然后将这些数据进行清洗替换存储到事务表中,再将事务表中的数据经过聚和操作生成应用指标为公司的决策提供数据支持。数据一旦进入数据仓库, 数据就不应该再有改变,操作型环境中的数据一般都会频繁的更新,而 在数据仓库环境中一般不进行数据更新,当改变的操作性数据进入数据仓库时会产生新的记录。集成与面向主题密切相关,将多个分散的数据源统一成一致的、无歧义的个数据,比如产品名冲突,单位不一致问题, 完成此类整合后该数据仓库可称为集成的。
原创
发布博客 2024.06.13 ·
178 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hive函数

count(列名)只包括列名那一列,会忽略列值为空(这里的空不是指空字符串或者0,而是表示null)的计数,即某个字段值为NULL时,不统计。count(1)包括了忽略所有列,用1代表代码行,在统计结果的时候,不会忽略列值NULL ,最快。count(*)包括了所有的列,相当于行数,不会忽略列值为NULL,执行速度最慢。如果表有多列,且不存在主键,则count(1)效率优于count(*)如果列不为主键,count(1)效率优于count(列名)如果列为主键,count(列名)效率优于count(1)
原创
发布博客 2024.06.12 ·
503 阅读 ·
4 点赞 ·
0 评论 ·
12 收藏

hive3.1.2分区与排序

clustered by指定分桶字段的时候,字段已经出现定义过了,只需要指定字段的名字。2、无论是分区还是分桶,在建表的时候都要指定字段,分区使用partitioned by指定分区字段,分桶使用clustered by指定分桶字段。select * from 表名 distribute by 字段名[,字段名...] sort by 字段名[,字段名...];1、在HDFS上的效果区别,分区产生的是一个一个子文件夹,分桶产生的是一个一个文件。4、分区字段最好选择固定类别的,分桶字段最好选择值各不相同的。
原创
发布博客 2024.06.11 ·
843 阅读 ·
11 点赞 ·
0 评论 ·
23 收藏

Hive3.1.2概述与基本操作

面试题:什么是hive?1、hive是数据仓库建模的工具之一。2、可以向hive传入一条交互式的sql,在海量数据中查询分析得到结果的平台。
原创
发布博客 2024.06.10 ·
796 阅读 ·
29 点赞 ·
2 评论 ·
18 收藏
加载更多