自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 Hive中查询中出现数据倾斜,如何解决?

针对大combiner采用负载均衡,需要运行两个mr程序时手动开启负载均衡设置(set hive.groupby.skewindata=true),在map任务完成后采用随机分发的方式,保证后面的每一个reduce拿到相等数量的数据信息更彻底解决数据倾斜问题,同时减轻数据倾斜的压力.注意:两表连接首先考虑使用条件过滤,过滤后再通过Map Join,Bucket Map Join,SMB Join来解决数据倾斜, 但是这种操作是存在使用条件的, 不满足条件无法使用.1.运营期处理方案(全自动)

2023-11-28 22:29:12 185

原创 离线数仓项目-生鲜甄选

甄选生鲜新零售项目。

2023-11-23 21:04:13 149

原创 Hive调优

主要手段有:join连接 本地模式严格模式 JVM重用 并行执行 推测执行SQL优化(列裁剪, 分区裁剪, groud by 操作, count(distinct), 笛卡尔积,)DEFAULT(默认形式) Gzip bzip2 LZO LZ4 Snappy(大多数情况下选用)

2023-11-17 21:32:52 58

原创 linux系统

虚拟网卡模式: NAT模式 桥接模式 仅主机模式NAT模式: 虚拟机将你的Windows电脑当做路由器上网,也就是借助Windows电脑上网仅主机模式: 虚拟机无法上网,只能和你的Windows电脑互通桥接模式: 虚拟机将自己接入你Windows电脑所在的网络中,也就是借助你Windows电脑用的路由器上网DHCP:(Dynamic Host Configuration Protocol)动态主机配置协议 ,向客户端动态分配 IP 地址和配置信息。

2023-11-08 22:22:52 36 1

原创 linux基础命令操作

head [-num] 文件路径: 查看文件的头部几行 默认前10行 当然-num可以指定任意行数。tail [-num] 文件路径: 查看文件的尾部几行 默认后10行 当然-num可以指定任意行数。ls [-a -l -h] [路径] : 查看指定路径下文件列表 注意: 默认都是当前路径。less [-N] 文件: less查看文件内容,一般建议查看大文件(可以翻页,可以搜索)rm [-r -f] 要删除的文件或者文件夹: 删除指定的文件或者文件夹。

2023-11-04 22:30:13 58 1

原创 python数据容器

数据容器含义: 能够存储多个元素的数据类型,叫数据容器常见的数据容器: 列表(list) 元组(tuple) 字符串(str) 集合(set) 字典(dict)各个容器符号列表: 中括号 [] 举例: [元素1,元素2,元素3,...]元组: 小括号 () 举例: (元素1,元素2,元素3,...)字符串: 引号 '内容'/"内容"/'''内容'''/"""内容""" 注意: 在字符串中每个字符都是一个元素。

2023-10-03 17:18:45 25

原创 Python函数

函数必须先定义再调用函数不调用不执行函数每调用1次就执行1次函数的参数和返回值根据需求定是否含有定义时有形参,调用时必须传入对应的实参定义时有返回值,调用时建议用变量接收定义时没有return 返回值,默认返回的None;也可以手动返回None,此操作没有意义。

2023-10-03 17:03:40 26

原创 Python中while循环和for循环语句的使用

1.定义一个变量并赋初始值2.while条件判断3.循环体4.条件控制。

2023-09-30 21:50:49 107

原创 python中input函数,布尔类型和比较运算符,if判断语句的运用

获取用户输入的数据。

2023-09-30 06:00:00 86

原创 python基础语法

print('我的姓名是 ' + name + ' 年龄是 ' + str(age) + ' 体重是 ' + str(height) + ' 公斤')print('我的姓名是%s,年龄是%d,体重是%.2f公斤' % (name, age, height))print('我的姓名是', name, '年龄是', age, '体重是', height, '公斤')print('我的姓名是%s,年龄是%s,体重是%s公斤' % (name, age, height))

2023-09-28 21:38:21 43

原创 大数据导论及计算机编程语言

体量大,种类及数据来源多,低密度价值,存储速度快,运算速度快,处理速度快,数据可靠,值得信赖.大数据(big data):无法用常规软件进行处理,需要采用一种新的模式进行处理的数据集合.编译型语言(eg:java):一次编译多次使用,相对于解释性语言执行速度快, 但较复杂.2.系统软件:承上启下的作用,应用软件与硬件之间的桥梁,没有系统软件的计算机成为裸机.1.种类:系统软件(windows,mac,linux)及应用软件。冯诺依曼体系结构:输入设备,输出设备,内外存储器,运算器,控制器。

2023-09-28 21:37:04 77

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除