什么都要取名累不累
码龄6年
关注
提问 私信
  • 博客:3,845
    社区:1
    3,846
    总访问量
  • 6
    原创
  • 1,863,875
    排名
  • 6
    粉丝
  • 0
    铁粉
IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:陕西省
  • 加入CSDN时间: 2019-03-08
博客简介:

酒馆的黑喵的博客

查看详细资料
个人成就
  • 获得2次点赞
  • 内容获得0次评论
  • 获得5次收藏
创作历程
  • 2篇
    2022年
  • 4篇
    2021年
  • 1篇
    2019年
成就勋章
兴趣领域 设置
  • Python
    python
  • 大数据
    hadoophivesparkflumekafkaflink大数据
创作活动更多

超级创作者激励计划

万元现金补贴,高额收益分成,专属VIP内容创作者流量扶持,等你加入!

去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

Hive的数据倾斜原因及解决

Hive的底层执行的是MapReduce所以在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些平均值能代表的价值降低。Hive的执行是分阶段的,map处理数据量的差异取决于上一个stage的reduce输出,所以如何将数据均匀的分配到各个reduce中,就是解决数据倾斜的根本所在。规避错误来更好
原创
发布博客 2022.02.25 ·
627 阅读 ·
0 点赞 ·
0 评论 ·
3 收藏

SQL语句优化技巧

sql调优
原创
发布博客 2022.02.25 ·
137 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据库MySQL索引的原理以及慢查询的性能优化

背景MySQL凭借着出色的性能、低廉的成本、丰富的资源,已经成为绝大多数互联网公司的首选关系型数据库。虽然性能出色,但所谓“好马配好鞍”,如何能够更好的使用它,已经成为开发工程师的必修课,我们经常会从职位描述上看到诸如“精通MySQL”、“SQL语句优化”、“了解数据库原理”等要求。我们知道一般的应用系统,读写比例在10:1左右,而且插入操作和一般的更新操作很少出现性能问题,遇到最多的,也是最容易出问题的,还是一些复杂的查询操作,所以查询语句的优化显然是重中之重。本人从2013年7月份起,一直在美团核心
原创
发布博客 2021.12.16 ·
157 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

spark数据倾斜

数据倾斜发生时的现象绝大多数task执行得都非常快,但个别task执行极慢。比如,总共有1000个task,997个task都在1分钟之内执行完了,但是剩余两三个task却要一两个小时。这种情况很常见。原本能够正常执行的Spark作业,某天突然报出OOM(内存溢出)异常,观察异常栈,是我们写的业务代码造成的。这种情况比较少见。数据倾斜发生的原理数据倾斜的原理很简单:在进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上的一个task来进行处理,比如按照key进行聚合或join等操作
原创
发布博客 2021.11.18 ·
134 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

Hive分区

create database if not exists myhive1;use myhive1;drop table if exists student;create table student(id int, name string, sex string ,age int, department string) row format delimited fields terminated by “,”;load data local inpath “/home/hadoop/student.
原创
发布博客 2021.11.18 ·
169 阅读 ·
0 点赞 ·
0 评论 ·
0 收藏

数据分析的常用指标

数据分析的常用指标1、PV(Page View)页面浏览量指某段时间内访问网站或某一页面的用户的总数量。通常用来衡量一篇文章或一次活动带来的流量效果,也是评价网站日常流量数据的重要指标。PV可重复累计,以用户访问网站作为统计依据,用户每刷新一次即重新计算一次。2、UV(Unique Visitor)独立访客指来到网站或页面的用户总数。这个用户是独立的,同一用户不同时段访问网站只算作一个独立访客,不会重复累计,通常以PC端的Cookie数量作为统计依据。3、Visit 访问指用户通过外部链接来到网
原创
发布博客 2021.08.17 ·
1497 阅读 ·
1 点赞 ·
0 评论 ·
2 收藏

Hive的分区详解

一、分区    hive表就是hdfs的上的一个目录    hive表中的数据,其实就是对应了HDFS上的一个目录下的数据    概念:对hive表的数据做分区管理创建分区表    create table student_ptn(id int, name string) par...
转载
发布博客 2019.04.24 ·
1124 阅读 ·
1 点赞 ·
0 评论 ·
0 收藏