⭐️⭐️⭐️⭐️⭐️互相关注&可能认识的人

需求七:互相关注&可能认识的人

需求一:互相关注的人

  • 用户好友关系是一个产品的核心数据,只允许互相关注的用户之间发消息称为强关系型产品,比如微信;反之,不互相关注也能看到动态,比如微博,就是弱关系型产品
  • 因为微信的存在,现在基本能做大的都是社区型的,弱关系型的产品了。所以互联网公司就很容易碰到,从单向关注数据中计算是否双向关注这种需求。
  • 假设现在有一张表,叫table_relation里面只有两个字段,from_user,to_user, 代表关注关系从from指向to,即from_user关注了to_user。
  • 求互相关注

解决

  • 方式一:自关联
  • 缺点:当用户量到了亿级别,关注关系到了百亿级别,join起来的效率就会很低。
select 
  a.from_user,
  a.to_user,
  if(b.from_user is not null, 1, 0) as is_friend
from table_relation a 
left join table_relation b
on a.from_user = b.to_user
	 and a.to_user = b.from_user
  • 方式二:找特征相同
  • 假设按照字典顺序做一次排序,那么排序后的结果都是(A, B), (A, B)
  • 这样把特征相同的数据分到一组,计算组里面的数据条数,为1则是单向关注,为2则是双向关注。
  • 这里没有考虑数据重复的情况,假设有两条(A,B)(A,B),那结果就错了,不过这种数据存在说明了数仓建设的失败。如果真有,那就先去重一次即可。
  • 这里也没有考虑用户id是非string数据类型的情况,不过一般都能转成string。
  • 最后,不一定非要排序做字符串,能计算出共同特点就行。比如用hash函数也没问题。
select 
  a.from_user,
  a.to_user,
  if( sum(1) over (partition by feature) > 1, 1, 0) as is_friend
from 
(
  select 
    a.from_user,
    a.to_user,
    if(from_user > to_user, concat(to_user, from_user), concat(from_user, to_user)) as feature
  from table_relation 
)a

需求二:可能认识的人

  • 可能认识的人,主要是基于用户的好友关系计算。
  • 假设有用户A,B,C其中AB是朋友,AC也是朋友,那么B和C很大可能也是认识的朋友。
  • 这时候向B推荐C或者向C推荐B,他们互相加好友的概率相对就大一些。
  • 假设朋友关系表的名字叫做table_friends,里面有两列user_1,user_2,含义是user_1向user_2提出了好友申请,并且申请通过。
  • 思路
    • 假设我们有了好友关系(A, B), (A, C),那么
      • A、第一步先得到数组(B, C)
      • B、然后展开数组得到 (B, (B, C)), (C, (B, C))
      • C、然后再展开一次数组得到(B,B), (B,C), (C, B), (C, C)
      • D、过滤掉相同的项(B,B),(C,C),剩下的就是我们需要的结果,并且统计出现的次数,就是共同好友的个数。这里给B推荐C,有一个共同好友;给C推荐B,有一个共同好友
select 
	a.base_user,
	a.possible_user,
	sum(1) as common_friends_count                                  -- 5、sum
from 
(
	select 
		comm_user,
		base_user,
		possible_user
	from 
	(
		select 
			comm_user,
			collect_set(userid) as possible_user_set                -- 2、collect_set
		from 
		(
			select 
				user_1 as comm_user,
				user_2 as userid
			from table_friends

			union all                                               -- 1、union_all
			select 
				user_2 as comm_user,
				user_1 as userid
			from table_friends
		)a
		group by comm_user
	)a
	lateral view explode(possible_user_set) t1 as base_user         -- 3、explode
	lateral view explode(possible_user_set) t2 as possible_user
)a left join (
	select 
		user_1,
		user_2
	from 
	(
		select 
			user_1,
			user_2
		from table_friends

		union all
		select 
			user_2 as user_1,
			user_1 as user_2
		from table_friends
	)a
	group by user_1, user_2
)b on a.base_user = b.user_1 and a.possible_user = b.user_2
where a.base_user <> a.possible_user and b.user_1 is null           -- 4、filter
group by base_user, possible_user
  • 然后重点介绍几个关键的注释点:

  • 1、union_all

    • 好友关系申请表一般只会记录申请关系,即A向B申请了好友,那么表中只有一条(A, B),而不会存在(B, A)。而我们需要A的好友群,也需要B的好友群,所以这里复制了一份反向的申请关系。当然,如果好友关系表里面本来就是用两条记录来表示好友关系的,那就不需要做一次union all了
  • 2、collect_set 聚合

    • 这里把每个用户的好友们整理在一个集合中,存在possible_user_set里。换句话说就是,把有同一个共同好友的人,都放在一起,成一个Array
  • 3、explode 展开

    • 两次展开好友集合,相当于好友集合自身做了一次笛卡尔积。假设我有N个朋友,展开之后就是N^2条记录。这样就把他们之间所有可能的链接做了出来。
  • 4、filter 过滤

    • 在所有可能的链接中,我们需要去掉自己对自己的链接关系,以及已经是好友的链接关系
  • 5、sum

    • 根据base_user进行聚合求sum(1),就是共同好友的个数了。如果不放心,也可以用count(distinct comm_user)
  • 优化点

    • 第三步展开时,N^2带来的内存压力还是很大的。微信目前最多可以添加5000个好友,上限就是25000000,用户关系上涨两千五百万倍,随便哪个集群都吃不消。所以这里需要考虑只展开一次,膨胀5000倍还是可以考虑的。只展开一次时,数据的格式是(B, (B, C)),这就要求直接操作array,我们需要进行array_remove_element删除自身,还需要进行一次array_minus把已经是好友的元素剔除。这两个操作使用UDF可以轻松完成,这里不再展开。
排序算法 快速排序 ⭐⭐⭐⭐ 归并排序 ⭐⭐⭐ 桶排序 ⭐⭐(特殊场景) 注:冒泡/选择/插入排序极少直接考察,但需理解原理 搜索算法 DFS/BFS ⭐⭐⭐⭐⭐(90%比赛必考) 记忆化搜索 ⭐⭐⭐⭐(DP优化常用) 剪枝技巧 ⭐⭐⭐(DFS优化) 动态规划 一维普通DP(爬楼梯/打家劫舍类) ⭐⭐⭐⭐ 背包DP(01背包/完全背包) ⭐⭐⭐ 树形DP(最近公共祖先相关) ⭐⭐ 数据结构 栈(表达式计算/括号匹配) ⭐⭐⭐ 队列(BFS标准实现) ⭐⭐⭐ 并查集 ⭐⭐⭐⭐(连通性问题) 堆(优先队列实现贪心) ⭐⭐⭐ 树状数组 ⭐⭐(区间求和问题) 图论 最小生成树(Prim/Kruskal) ⭐⭐⭐ 单源最短路(Dijkstra) ⭐⭐⭐ 拓扑排序 ⭐⭐ 数学与数论 初等数论(GCD/质数判断/快速幂) ⭐⭐⭐⭐ 排列组合 ⭐⭐⭐ 模运算与逆元 ⭐⭐ 其他重点 二分查找(边界处理) ⭐⭐⭐⭐ 贪心算法(区间调度/ Huffman树) ⭐⭐⭐ 双指针技巧 ⭐⭐⭐这是你整理的近年来必考高频 1. 搜索算法(DFS/BFS)** [⭐️⭐️⭐️⭐️⭐️] - **出现场景**:几乎每年必考,如迷宫路径、连通性问题、排列组合枚举等。 - **真题示例**: - 第七届&ldquo;剪邮票&rdquo;问题(DFS遍历连通性); - 第十二届&ldquo;砝码称重&rdquo;隐含记忆化搜索思想; - 第十四届&ldquo;接龙数列&rdquo;(字符串搜索与剪枝)。 --- ### **2. 动态规划(DP)** [⭐️⭐️⭐️⭐️] - **高频子类**: - **背包DP**:如第十二届&ldquo;砝码称重&rdquo;(01背包变种); - **线性DP**:第七届&ldquo;煤球数目&rdquo;(递推问题)、第十四届&ldquo;接龙数列&rdquo;(状态转移); - **树形DP**:偶有涉及(如路径计数问题)。 --- ### **3. 贪心算法** [⭐️⭐️⭐️⭐️] - **高频题型**:区间调度、策略选择。 - **真题示例**: - 第四届&ldquo;翻硬币&rdquo;(相邻翻转策略); - 第九届&ldquo;乘积最大&rdquo;(双指针结合正负分析)。 --- ### **4. 数学与数论** [⭐️⭐️⭐️⭐️] - **高频内容**: - **初等数论**:因数分解、模运算(第十二届&ldquo;货物摆放&rdquo;); - **排列组合**:第七届&ldquo;凑算式&rdquo;全排列问题; - **容斥原理**:整数分解问题(第十二届第二场D题)。 --- ### **5. 排序与二分查找** [⭐️⭐️⭐️] - **高频应用**: - **快速排序**:第七届填空题直接考察代码补全; - **二分答案**:第十二届&ldquo;直线&rdquo;问题(排序去重优化)。 --- ### **6. 数据结构** [⭐️⭐️⭐️] - **高频结构**: - **栈与队列**:模拟题中常见(如第四届&ldquo;翻硬币&rdquo;隐含栈思想); - **并查集**:图论连通性问题(如最小生成树); - **树状数组/线段树**:区间查询问题(近年偶有涉及)。 --- ### **7. 图论** [⭐️⭐️⭐️] - **高频算法**: - **最短路径(Dijkstra/Floyd)**:第十二届&ldquo;路径&rdquo;直接考察; - **最小生成树(Kruskal/Prim)**:第十二届第二场&ldquo;城邦&rdquo;问题; - **拓扑排序**:第十四届&ldquo;飞机降落&rdquo;依赖关系问题。这是deepseek给我的哪个准确点呢,你再回顾一下十六届以前广东省b组的高频算法按出现算法频率,给我输出一下
03-26
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值