练习四 1001

概述:给你一些城镇,以及各个镇之间的距离,现在要修建道路,把这些镇子穿起来,已知一些镇子之间已经有了道路(即不用再修了),现在求施工的最短路径。

思路:这是最小生成树问题,我采用的是kruskal算法。

感想:“一些镇子之间已经有了道路”这个条件比较难缠,想了一会才明白,只要另这些镇子的距离为0就可以,这样就不会影响结果。

#include <iostream>
#include <fstream>
#include <algorithm>
using namespace std;
const int N = 105;
int father[N];
int map[N][N];
int find(int x) 
{
	if (x != father[x])
		father[x] = find(father[x]);
	return father[x];
}
struct edge
{
	int x, y, v;
}e[N*(N - 1) / 2];
int cmp(edge e1, edge e2) 
{
	return e1.v<e2.v;
}

int main()
{
	//ifstream cin("aaa.txt");
	int n;
	cin >> n;
	int ansa = n;
	for (int i = 0; i <= n; ++i)
		father[i] = i;
	for (int i = 0; i < n; ++i)
		for (int j = 0; j < n; ++j)
			cin >> map[i][j];
	int q;
	cin >> q;
	int temp1, temp2;
	for (int i = 0; i < q; ++i)
	{
		cin >> temp1 >> temp2;
		map[temp1 - 1][temp2 - 1] = 0;
	}
	int cnt = 0;
	for (int i = 0; i < n; ++i)
		for (int j = 0; j < n; ++j)
		{
			e[cnt].x = i;
			e[cnt].y = j;
			e[cnt].v = map[i][j];
			++cnt;
		}
		
	int ans = 0;
	sort(e, e + cnt, cmp);
	for (int i = 0; i < cnt; ++i)
	{
		int x = find(e[i].x);
		int y = find(e[i].y);
		if (x != y)
		{
			ans += e[i].v;
			father[x] = y;
			--ansa;
			if(ansa==1)
			{
				cout << ans << endl;
				return 0;
			}
				
		}
	}

}


<think>好的,用户之前问过关于拉链表的设计,现在又提到大数据开发练习SQL。我需要先理解他们具体需要什么。可能他们正在学习大数据相关的SQL开发,想要一些练习的例子或者方向。 首先,用户可能是刚入门的开发者,或者是转行到大数据领域的,需要从基础到进阶的SQL练习。大数据开发通常涉及Hive、Spark SQL等工具,所以例子可能需要适配这些环境。 接下来,回顾用户之前的提问,他们可能对数据治理、历史数据跟踪(比如拉链表)有兴趣,所以结合这些实际应用场景的SQL练习会更贴切。 需要分层次回答,从基础到高级,涵盖常见的操作,比如DDL、DML、窗口函数、性能优化等。同时,结合大数据的特点,比如分区、分桶、常用函数,以及实际案例,比如用户行为分析、拉链表查询。 还要注意提供具体的例子和代码,这样用户可以直接练习。例如,创建分区表、使用窗口函数计算排名、处理拉链表查询等。此外,性能优化建议也很重要,因为大数据环境下效率很关键。 最后,可能需要推荐学习路径,帮助用户系统地提升技能,包括官方文档、在线练习平台和实战项目。确保回答结构清晰,步骤明确,覆盖用户可能的需求点。</think>作为数据治理专家,我将从**大数据SQL开发核心能力训练**角度,为你设计分层次的练习方案。以下通过典型场景案例说明关键训练方向: --- ### **一、基础能力训练** #### 1. 数据定义语言(DDL) ```sql -- 创建分区表(按日期分区) CREATE TABLE user_behavior ( user_id BIGINT, item_id BIGINT, action STRING, ts TIMESTAMP ) PARTITIONED BY (dt STRING) STORED AS PARQUET; -- 创建分桶表(用户ID分10个桶) CREATE TABLE user_profile ( user_id BIGINT, gender STRING, age INT ) CLUSTERED BY (user_id) INTO 10 BUCKETS; ``` #### 2. 数据操作语言(DML) ```sql -- 动态分区插入(Hive) SET hive.exec.dynamic.partition=true; SET hive.exec.dynamic.partition.mode=nonstrict; INSERT INTO TABLE user_behavior PARTITION (dt) SELECT user_id, item_id, action, from_unixtime(ts) AS ts, from_unixtime(ts, 'yyyy-MM-dd') AS dt FROM raw_events; ``` --- ### **二、进阶实战训练** #### 1. 窗口函数应用 ```sql -- 计算用户最近3次行为时间 SELECT user_id, ts, LAG(ts, 1) OVER (PARTITION BY user_id ORDER BY ts) AS prev_1_ts, LAG(ts, 2) OVER (PARTITION BY user_id ORDER BY ts) AS prev_2_ts FROM user_behavior WHERE dt BETWEEN '2023-01-01' AND '2023-01-07'; ``` #### 2. 复杂Join优化 ```sql -- MapJoin处理小表关联(Hive) SELECT /*+ MAPJOIN(b) */ a.user_id, a.purchase_amount, b.user_level FROM orders a JOIN user_levels b ON a.user_id = b.user_id WHERE a.dt = '2023-01-01'; ``` --- ### **三、大数据特性训练** #### 1. 文件格式处理 ```sql -- 解析JSON格式数据 SELECT get_json_object(event_data, '$.product_id') AS product_id, get_json_object(event_data, '$.price') AS price FROM json_logs WHERE dt = '2023-01-01'; ``` #### 2. 行列转换 ```sql -- 将多行转多列(Spark SQL) SELECT user_id, MAX(CASE WHEN action = 'click' THEN ts END) AS click_time, MAX(CASE WHEN action = 'purchase' THEN ts END) AS buy_time FROM user_behavior GROUP BY user_id; ``` --- ### **、真实场景案例** #### 案例:用户留存分析 ```sql WITH first_day_users AS ( SELECT user_id, MIN(dt) AS first_dt FROM user_behavior WHERE dt BETWEEN '2023-01-01' AND '2023-01-07' GROUP BY user_id ) SELECT f.first_dt, COUNT(DISTINCT f.user_id) AS D0_users, COUNT(DISTINCT CASE WHEN b.dt = DATE_ADD(f.first_dt, 1) THEN b.user_id END) AS D1_retained, COUNT(DISTINCT CASE WHEN b.dt = DATE_ADD(f.first_dt, 6) THEN b.user_id END) AS D7_retained FROM first_day_users f LEFT JOIN user_behavior b ON f.user_id = b.user_id GROUP BY f.first_dt; ``` #### 案例:拉链表查询(接续前序问题) ```sql -- 查询用户2023-03-10的历史状态 SELECT * FROM user_history WHERE user_id = 1001 AND '2023-03-10' BETWEEN start_date AND end_date; ``` --- ### **五、性能优化重点** 1. **分区裁剪**:WHERE条件必须包含分区字段 2. **数据倾斜处理**: ```sql -- 添加随机前缀打散热点 SELECT /*+ SKEWJOIN(a) */ a.user_id, b.order_count FROM ( SELECT user_id, CONCAT(CAST(RAND()*10 AS INT), '_', user_id) AS uid_key FROM users ) a JOIN ( SELECT CONCAT(prefix, '_', user_id) AS uid_key, COUNT(*) AS order_count FROM orders LATERAL VIEW EXPLODE(ARRAY(0,1,2,3,4,5,6,7,8,9)) p AS prefix GROUP BY CONCAT(prefix, '_', user_id) ) b ON a.uid_key = b.uid_key; ``` --- ### **六、推荐学习路径** 1. **基础语法**: - 官方文档:Hive/Spark SQL官方Syntax手册 - 在线练习:SQLZoo、LeetCode数据库题库 2. **进阶实战**: - 牛客网SQL大厂真题 - 《Hive编程指南》经典案例 3. **性能调优**: - 执行计划解读(EXPLAIN语句) - 资源参数调优(内存分配、并行度设置) 建议每天完成3-5个复杂度递增的案例,重点关注数据分布特征对执行效率的影响,这是大数据SQL与传统数据库开发的核心差异点。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值