码上_成功
码龄7年
关注
提问 私信
  • 博客:33,748
    33,748
    总访问量
  • 37
    原创
  • 388,963
    排名
  • 6
    粉丝
  • 0
    铁粉

个人简介:一个靠代码谋生的小人物

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:浙江省
  • 加入CSDN时间: 2018-03-29
博客简介:

qq_41924766的博客

查看详细资料
个人成就
  • 获得15次点赞
  • 内容获得5次评论
  • 获得63次收藏
  • 代码片获得396次分享
创作历程
  • 18篇
    2023年
  • 19篇
    2021年
成就勋章
TA的专栏
  • 大数据集群搭建
    14篇
  • Flume
    1篇
  • Sqoop
    1篇
  • Flink
    11篇
  • Doris
    1篇
  • Hbase
    3篇
  • mapreduce
    6篇
  • Spark
  • idea
    1篇
  • oracle
  • mysql
    1篇
  • scala
    1篇
  • python
  • java
  • 项目
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Flume之基本使用

Flume是Cloudera提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构,灵活简单。
原创
发布博客 2023.06.16 ·
546 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Sqoop之快速入门

Sqoop导入导出脚本
原创
发布博客 2023.06.12 ·
347 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink之CDC

Flink CDC实时读取Mysql数据
原创
发布博客 2023.06.08 ·
384 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Doris 1.1.5集群部署

Doris集群部署及扩缩容的讲解
原创
发布博客 2023.05.31 ·
753 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink之容错机制

有状态流应用中的检查点(checkpoint),其实就是所有任务的状态在某个时间点的一个快照(一份拷贝)。简单来讲,就是一次“存盘”,让我们之前处理数据的进度不要丢掉。在一个流应用程序运行时,Flink 会定期保存检查点,在检查点中会记录每个算子的 id 和状态;如果发生故障,Flink 就会用最近一次成功保存的检查点来恢复应用的状态,重新启动处理流程,就如同“读档”一样。
原创
发布博客 2023.05.28 ·
298 阅读 ·
0 点赞 ·
1 评论 ·
0 收藏

Flink之状态编程

Flink中的状态编程
原创
发布博客 2023.05.24 ·
675 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Flink之多流操作

Flink 多流操作
原创
发布博客 2023.05.23 ·
340 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

Hbase之优化篇

hbase 预分区、rowkey设计
原创
发布博客 2023.05.23 ·
304 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hbase之RM读写

将HBASE_CLASSPATH加入环境变量:export HBASE_CLASSPATH=`$HBASE_HOME/bin/hbase mapredcp`Hbase建表:create “stu”,“info”,“info1”需要准备hadoop、zookeeper以及hbase集群。并将准备的如下数据上传hdfs,数据按照\t拆分。hive-site.xml文件添加如下配置。数据:最前面准备的stu.txt。分析数据并插入结果表。
原创
发布博客 2023.05.22 ·
441 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hbase之基础知识

Hbase基础知识
原创
发布博客 2023.05.20 ·
469 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Flink之处理函数

Flink 处理函数基本使用及topN案例
原创
发布博客 2023.05.18 ·
311 阅读 ·
0 点赞 ·
0 评论 ·
2 收藏

Flink之Windows

Flink Windows相关代码实现
原创
发布博客 2023.05.17 ·
532 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Flink之Watermark

处理时间(Processing Time)处理时间的概念非常简单,就是指执行处理操作的机器的系统时间。事件时间(Event Time)事件时间,是指每个事件在对应的设备上发生的时间,也就是数据生成的时间。
原创
发布博客 2023.05.16 ·
292 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink 之输出算子Sink

Flink 将数据写入外部系统
原创
发布博客 2023.05.16 ·
458 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink之自定义Source

Flink 自定义Source
原创
发布博客 2023.05.15 ·
1084 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Flink之提交任务

s(–slots): 每个 TaskManager 的 slot 数量,默认一个 slot 一个 core,默认每个。taskmanager 的 slot 的个数为 1,有时可以多一些 taskmanager,做冗余。-nm:yarn 的 appName(现在 yarn 的 ui 上的名字)。进入flink Web页面:http://hostname:8081/-tm:每个 taskmanager 的内存(单位 MB)。由于并行度设置的是2,3台机器只有2台是有数据的,如下图。查看集群上运行的job。
原创
发布博客 2023.05.14 ·
2016 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

Flink之wordCount

Flink 实现worCount,批处理和流处理,java和scala二个版本
原创
发布博客 2023.05.13 ·
241 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

idea之Maven项目支持scala

2、File => settings => Plugins => 六角配置按钮 => intall from Disk => 选择刚刚下载的scala插件 => 重启。步骤:File => settings => Plugins => marketplace搜索scala安装。
原创
发布博客 2023.05.13 ·
2181 阅读 ·
2 点赞 ·
0 评论 ·
5 收藏

MR之ReduceJoin

MR之ReduceJoin前言一、实现思路二、具体代码1.OrderBean类2.ReduceJoinMapper类3.ReduceJoinReduce类4.RecudeJoinDriver类前言前一篇文章将了下MapJoin,其实ReduceJoin和MapJoin类似,只不过一个是在Map端匹配,一个是在Reduce端匹配,各有各的优势。一、实现思路和MapJoin类似,也是通过读取二个文件,文件的大小可以很大,通过FileInputFormat读取文件,读取到文件后需要获取文件的名称,通过文
原创
发布博客 2021.07.14 ·
325 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

MR之MapJoin

MR之MapJoin前言一、实现思路二、具体代码1.MapJoinOrderBean类2.MapJoinMapper类3.MapJoinReduce类4.MapJoinDriver类三、运行注意点四、个人运行结果总结前言有一个商品文件和一个订单文件,其中订单文件记录了商品文件的编号,而商品文件中有商品的中文名称。需求:需要输出一个订单文件,字段为:商品名称、商品总量、总金额。一、实现思路我们需要读取商品文件形成一个Map集合,再通过订单文件中的商品id,在Map集合中找到商品名称,再实现对应的
原创
发布博客 2021.07.12 ·
426 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏
加载更多