自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(7)
  • 收藏
  • 关注

原创 Spark的5种join策略详解

1.Broadcast Hash Join:这种连接策略使用一个叫做广播散列(Broadcast Hash)的方法,它通过将小数据集(broadcast)加载到每个节点上,然后使用散列将大数据集映射到小数据集上,从而实现快速连接。这种策略适用于小数据集可以轻松装入内存的情况。broadcast_hash_join、shuffled_hash_join、broadcast_nested_loop_join、shuffled_nested_loop_join或cartesian_join来选择需要的连接策略。

2023-12-05 11:14:59 443 1

原创 Sql调优+Hive调优+Spark调优

select * from a join (select 列1,列2...,if(id is null,concat(10,rand()),id)id from b)b on a.id=b.id;3.桶表 join 桶表,且表A的桶的数量,是表B的桶的数量的整数值,则可以用分桶字段 替代 关联字段,即: on a.id=b.id=>on a.分桶字段=b.分桶字段;默认情况下,1个分区=1个ReduceTask任务=1个最终结果文件,如果要调整ReduceTask数量,就手动调整分区数量。

2023-12-05 11:10:55 169 1

原创 SparkMllib-KMeans算法和决策树算法

1.--ID3算法步骤-计算每个特征的信息增益-使用信息增益最大的特征将数据集 S 拆分为子集-使用该特征(信息增益最大的特征)作为决策树的一个节点-使用剩余特征对子集重复上述(1,2,3)过程>>通过计算每个节点的信息增益(整个数据集的信息熵-当前节点的信息熵),信息增益越大说明不确定性月小,所以我们选择信息增益大的节点作为根节点-C4.5 是计算信息增益率 :信息增益/当前特征取值的信息熵-解决ID3决策树缺点:缺点1:当前特征列的取值越多时,信息增益越大。

2023-11-22 19:50:03 195 1

原创 PySpark和Spark的交互流程

Client方式提交到Spark集群Cluster方式提交到Spark集群Client方式提交到,SparkOnYarnCluster方式提交到,SparkOnYarn

2023-11-19 23:47:41 162 1

原创 Hive调优

select * from a join (select 列1,列2...,if(id is null,concat(10,rand()),id)id from b)b on a.id=b.id;--------------------------------------------------------Hive框架之 调优-----------------------------------------------------转2两个MR,效率相对较低,但是大数据量情况下,也能计算。

2023-11-19 23:43:34 33 1

原创 SQL题-连续三天活跃用户统计

- 4- 根据user_id 和 new_dt进行分组,求count(new_dt) >=n,过滤出新的日期相同的用户id。-- 有日志如下,请写出代码求得所有用户和活跃用户的总数及平均年龄。-- 2- 使用新增加的列与原来的表进行join on dt=tomorrow。-- 1- 给原表增加一列:date_add(dt,1) tomorrow。-- 需求有日志如下,请写出代码求得所有用户和活跃用户的总数及平均年龄。-- 3- 通过当前的dt 减去 rn 得到一个新的日期 new_dt。

2023-11-15 19:07:51 217

原创 三有保险 用户画像-项目文档

用户画像 就是给用户打上海量的标签, 根据用户的目标, 行为和观点差异将用户区分成不同的类型, 从每种类型中提出出关键的信息(标签的名字) 形成人物原型, 实际就是`用户信息标签化.

2023-11-12 10:48:56 209 1

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除