YuPangZa
码龄6年
关注
提问 私信
  • 博客:18,220
    18,220
    总访问量
  • 39
    原创
  • 167,890
    排名
  • 74
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:河南省
  • 加入CSDN时间: 2018-11-27
博客简介:

qq_43819048的博客

查看详细资料
  • 原力等级
    当前等级
    3
    当前总分
    224
    当月
    0
个人成就
  • 获得63次点赞
  • 内容获得15次评论
  • 获得66次收藏
  • 代码片获得207次分享
创作历程
  • 2篇
    2024年
  • 37篇
    2023年
成就勋章
TA的专栏
  • 大数据
    30篇
  • 大数据中踩过的坑
    2篇
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

14-Kafka-Day03

可以理解为分配的结果带有“粘性的”。即在执行一次新的分配之前, 考虑上一次分配的结果,尽量少的调整分配的变动,可以节省大量的开销。粘性分区是 Kafka 从 0.11.x 版本开始引入这种分配策略,首先会尽量均衡的放置分区 到消费者上面,在出现同一消费者组内消费者出现问题的时候,会尽量保持原有分配的分区不变化。
原创
发布博客 2024.06.20 ·
1092 阅读 ·
16 点赞 ·
0 评论 ·
13 收藏

PostGreSQL遇到的坑

前者是添加了字段a,后者是添加的是区分大小写的字段a,若后面是添加的“A”那么查询的时候也必须是select "A"....,区分大小写的形式查询, 否则是无法查询的,前者是不区分大小写的,无论是select a 或者 select A 或者 select "a"都可以查询,而后者只能 select "a"查询。总结:postgresql中“”双引号代表区分大小写的意思,谨慎使用。
原创
发布博客 2024.06.20 ·
300 阅读 ·
2 点赞 ·
0 评论 ·
0 收藏

14-Kafka-Day02

Kafka 集群中有一个 broker 的 Controller 会被选举为 Controller Leader,负责管理集群broker 的上下线,所有 topic 的分区副本分配和 Leader 选举等工作。(2)查看 hadoop11(或者 hadoop12、hadoop13)的/opt/installs/kafka3/datas/first-1 (first-0、first-2)路径上的文件。(3)创建副本存储计划(所有副本存储在 broker0、broker1、broker2 中)。
原创
发布博客 2023.12.08 ·
409 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏

14-kafka-Day01

kafka 面试非常的重要,做实时或者准实时项目必用工具(绕不开)。Kafka就是用来存储消息的,消息中间件。Kafka是分布式的发布—订阅消息系统。它最初由LinkedIn(领英)公司发布,使用Scala语言编写,于2010年12月份开源,成为Apache的顶级项目。Kafka是一个高吞吐量的、持久性的、分布式发布订阅消息系统。它主要用于处理活跃live的数据(登录、浏览、点击、分享、喜欢等用户行为产生的数据)。kafka 在大数据技术中,属于实时计算架构中的一员悍将!Scala语言的底层是Java。
原创
发布博客 2023.12.08 ·
300 阅读 ·
5 点赞 ·
0 评论 ·
0 收藏

spark链接hive时踩的坑

而我们的hive数据是存放在hdfs上的,我们的spark进行查询数据时是使用hive的metastore连接的hive的数据库,也就是spark会从hdfs上读取数据,所以无论怎么查询都是查不出来数据的。同时hive中也可以看到这个数据库,建表插入数据也没有问题,但是当我们去查询数据库中的数据时,发现查不到数据,去查hive的元数据,发现,spark在创建数据库的时候将数据库创建在了本地文件系统中。这个数据库,如果没有,可能是spark创建在了其他的服务器节点上。还有另一种方法(慎用)
原创
发布博客 2023.12.08 ·
734 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

13-数据采集项目Day04

把timestamp+"
"+密钥当做签名字符串,使用HmacSHA256算法计算签名,然后进行Base64 encode,最后再把签名参数再进行urlEncode,得到最终的签名(需要使用UTF-8字符集)。可以创建一个钉钉群,所有的大数据开发人员都在群里面,找一个群里的机器人,只要任务失败了,机器人就发送消息到群里,最好这个消息还能点击,跳转到Azkaban的界面。假如遇到了一个jar包,这个jar是一个非常小众的jar包,远程仓库没有,但是这个jar包已经在你手里面了。
原创
发布博客 2023.12.07 ·
157 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

impala入门

mpala是用于处理存储在Hadoop集群中的大量数据的MPP(大规模并行处理)SQL查询引擎。它是一个用C +和Java编写的开源软件。与其他Hadoop的SQL引擎相比,它提供了高性能和低延迟。换句话说,Impala是性能最高的SQL引擎(提供类似RDBMS的体验),它提供了访问存储在Hadoop分布式文件系统中的数据的最快方法。
原创
发布博客 2023.09.27 ·
185 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

13-数据采集项目03

因为我们上传到hdfs上的数据是json格式的。当你的分区下有tmp文件的时候,就会查询到null,这个是一个正常的现象。如果指定了时间,就抽取这个时间的前一天,如果没有指定时间,当前时间的前一天。映射到有数据的分区文件夹下,比如,我有20221008有数据。假如你flume抽取数据的时候,抽取不成功,什么错误都不报。使用一个脚本,创建news表,并且添加分区。4、编写一个脚本可以抽取数据到hdfs上。如果之前采集过,直接删除hdfs上的数据。5、将hdfs上的数据映射到hive表中。
原创
发布博客 2023.09.14 ·
1516 阅读 ·
5 点赞 ·
0 评论 ·
9 收藏

13-数据采集项目02

问题答疑:采集到hdfs上的数据,长这个样子因为我们需要将这个数据进行分析的,需要映射到hive表中,密文显然不行。需要明文# 原始日志格式# 解析# 解析结果content: {name: "毕湛英",gender: "女",age: "85",},# 通过flume拦截器解析结果 目标"element_page": "新闻列表页","carrier": "中国电信",需要使用拦截器(Flume的)将切割好的文件,上传至hdfs,并且解密。
原创
发布博客 2023.09.13 ·
254 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

13-数据采集项目1

做好的一个网站,只能在内网访问,不能外网访问,原因是没有公网IP,公网IP是需要购买的。我们穷,但是我们有技术--穷屌丝内网穿透工具-- natapp、花生壳等软件 花生壳是当前最正规的内网穿透工具natapp网站地址:https://natapp.cn/需要有一个网站,可以拿tomcat的官方页面当这个网站。找到tomcat,解压,点击bin/startup.bat 启动。访问网站IP : http://localhost:8080内网穿透工具的使用(可以帮助理解端口映射)
原创
发布博客 2023.09.13 ·
239 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

12-海豚调度器DolphinScheduler

自定义日期格式$[yyyyMMdd]也可以写成$[yyyy-MM-dd]$[HHmmss] 也可以添加: $[HH:mm:ss]
原创
发布博客 2023.09.11 ·
4960 阅读 ·
17 点赞 ·
1 评论 ·
26 收藏

11-azkaban

遇到了什么问题才会使用Azkaban?比如: 想启动hadoop集群先启动 zk集群,再启动 hdfs ,再启动 yarn,再启动日志系统工作过程中总会遇到 多个脚本执行的时候有顺序。任务可以有一个编排的工具。1. 一个完整的大数据分析系统通常都是由大量任务单元组成:shell脚本程序,mapreduce程序、hive脚本、spark程序等。hadoop jar topN.jar 参数hive -e "sql语句"spark任务 flink任务等。
原创
发布博客 2023.09.08 ·
242 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

Hive练习题数据restaurants表数据

发布资源 2023.09.07 ·
txt

Hive练习题数据order表数据

发布资源 2023.09.07 ·
txt

Bito:比ChatGPT更快!无需API Key!

Bito:比ChatGPT更快!无需API Key
原创
发布博客 2023.09.07 ·
323 阅读 ·
3 点赞 ·
0 评论 ·
0 收藏

10-datax--基础

读取mysql的数据,将数据展示在控制台上。此时的stream其实就是控制台。
原创
发布博客 2023.09.06 ·
719 阅读 ·
2 点赞 ·
0 评论 ·
2 收藏

09-Sqoop

2、为什么是4个文件呢,原因是sqoop 底层默认开启了4个map任务,所以有四个输出,可以自己修改map任务的数量。1、一定要记得的是 Sqoop的执行脚本,底层使用的MR中的map,所以输出文件的名字都是part-m 开头。现在创建一个表,字段跟数据的文件字段数量和类型都一样,最重要的是数据类型和存储位置一定要要分析的文件一样。假如从hdfs导出到mysql的时候,出现了列的顺序不一致问题,可以通过追加--columns 来解决。在数据库中新增两条数据,再次执行这个任务,就能看到增量导入的效果。
原创
发布博客 2023.09.05 ·
252 阅读 ·
1 点赞 ·
0 评论 ·
1 收藏

08-Flume

flume 其实就是水管 数据起始就是水,将水引入到不同的容器中Sqoop -- 一般用于采集数据库中的数据Flume -- 一般采集我们的日志数据 user.logFlume 其实可以看做一个水管。一头接着水源,一头接着桶,从水源地抽取数据到桶里去。Agent : 是Flume中的基本单位,一个Flume配置文件,可以有多个Agent.每一个Agent中有三个组件组成,缺一不可:1、Source 来源,数据过来的地方。
原创
发布博客 2023.09.04 ·
180 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏

07-mysql-SQL优化

存储引擎:MyISAM 和 InnoDB。
原创
发布博客 2023.09.02 ·
262 阅读 ·
3 点赞 ·
0 评论 ·
4 收藏

07-hive---基础部分4

--指定表内的字段进行分桶。sorted by (id asc|desc) ---指定数据的排序规则,表示咱们预期的数据是以这种规则进行的排序举例:sorted by 指定分桶表中的每一个桶的排序规则--指定getPartition以哪个字段来进行hash,并且排序字段也是指定的字段,排序是以asc排列--相当于distribute by (id) sort by (id)想当于:distribute by (id) -- 指定getPartition以哪个字段来进行hash。
原创
发布博客 2023.09.01 ·
72 阅读 ·
0 点赞 ·
0 评论 ·
1 收藏
加载更多