案例:社交粉丝数据分析--求共同好友

案例:社交粉丝数据分析--求共同好友


逻辑分析
以下是qq的好友列表数据,冒号前是一个用户,冒号后是该用户的所有好友(数据中的好友关系是单向的)
A:B,C,D,F,E,O
B:A,C,E,K
C:F,A,D,I
D:A,E,F,L
E:B,C,D,M,L
F:A,B,C,D,E,O,M
G:A,C,D,E,F
H:A,C,D,E,O
I:A,O
J:B,O
K:A,C,D
L:D,E,F
M:E,F,G
O:A,H,I,J

求出哪些人两两之间有共同好友,及他俩的共同好友都有谁?
解题思路:
k1: LongWritable; v1: Text
k2: Text, 好友; v2: Text, 用户。  B -->  A     
k3: Text, 用户列表; v3: Text, 好友。


A-B  ==>  C,E 
A-C  ==>  D,F
提示:可以使用多个MR来完成
第一个MR:
K2   V2
第一行数据
B    A
C    A
D    A
F    A
E    A
第二行数据
B:A,C,E,K
A    B
C    B
E    B
K    B
C    E
C    F
C    G
C    H
C    K

注意:如果以每一个好友作为我们的k2  往下发送数据
c好友出现在了哪些用户列表里面
C [A,B,E,F,G,H,K]
reduce端数据数据
用户列表        好友
A-B-E-F-G-H-K-  C    ==>  输出   第一个mr结束

第二个mr程序
用户列表        好友
A-B-E-F-G-H-K-    C
K2    v2  
F-D-O-I-H-B-K-G-C-    A
E-A-J-F-    B
K-A-B-E-F-G-H-    C
G-K-C-A-E-L-F-H-    D
G-F-M-B-H-A-L-D-    E
M-D-L-A-C-G-    F
M-    G
O-    H
C-O-    I
O-    J
B-    K
E-D-    L
F-E-    M
J-I-H-A-F-    O

E-A-J-F-    B
G-K-C-A-E-L-F-H-    D

K2    v2
A-E   B
A-E      D

相同key的数据发送到同一个reduce里面去,key合并,value形成一个集合
reduce端接收到的数据
两两用户    所有的共同好友
A-B   [C,E]

A-B  C-E-


代码实现:
第一步:代码实现
package cn.itcast.demo1.step1;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
i

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
好的,以下是10个基于Python的数据分析大作业详细案例: 1. 餐厅销售数据分析: - 数据来源:餐厅销售数据 - 分析内容:餐厅每日销售额、最受欢迎的菜品、客人到访时间分布等 - 数据分析工具:pandas、matplotlib、seaborn 2. 电商网站用户行为分析: - 数据来源:电商网站用户行为数据 - 分析内容:用户访问时段分布、浏览商品数量、购买转化率等 - 数据分析工具:pandas、matplotlib、seaborn 3. 网络游戏用户分析: - 数据来源:网络游戏用户数据 - 分析内容:游戏用户等级分布、游戏时长分布、付费用户分布等 - 数据分析工具:pandas、matplotlib、seaborn 4. 汽车销售数据分析: - 数据来源:汽车销售数据 - 分析内容:不同品牌汽车销售量、不同地区汽车销售量、不同车型销售量等 - 数据分析工具:pandas、matplotlib、seaborn 5. 电影票房预测: - 数据来源:电影票房数据 - 分析内容:不同类型电影票房表现、演员、导演对票房的影响等 - 数据分析工具:pandas、matplotlib、scikit-learn 6. 社交媒体用户分析: - 数据来源:社交媒体用户数据 - 分析内容:用户地理位置分布、用户兴趣标签分布、用户粉丝数量分布等 - 数据分析工具:pandas、matplotlib、seaborn 7. 金融市场数据分析: - 数据来源:金融市场数据 - 分析内容:股票价格波动、股票交易量、股票市盈率等 - 数据分析工具:pandas、matplotlib、seaborn 8. 疫情数据分析: - 数据来源:疫情数据 - 分析内容:疫情趋势分析、不同地区疫情情况、确诊病例死亡率等 - 数据分析工具:pandas、matplotlib、seaborn 9. 电子商务用户购买行为分析: - 数据来源:电商网站用户购买行为数据 - 分析内容:购买商品类别分布、购买时间分布、用户购买次数等 - 数据分析工具:pandas、matplotlib、seaborn 10. 电视剧收视率预测: - 数据来源:电视剧收视率数据 - 分析内容:不同电视剧收视率表现、演员、导演对收视率的影响等 - 数据分析工具:pandas、matplotlib、scikit-learn 希望这些案例能够给你提供一些灵感和帮助。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值