inner join 重复数据_第3课:一个周末学会R语言数据处理:表关联join

f6546fc017ab7cb32eea8d6638a308fe.png

学完这节课,你可以:

  1. 了解表关联的概念及用法
  2. 在R语言中自由关联数据

如你的电脑还未安装R语言环境,可参考R语言安装中第一部分安装

一、左关联,右关联,内关联,外关联示意图及结果

假设我们有表A和表B,分别为小区数据和房源数据,如果我们以小区为关联字段,分别做leftjoin,right_join,inner_join,outer_join,会得到什么样的结果?

965fff46b4d250cecc7fd0d6dfe462d3.png
原始
  • 左关联(left_join)

661d277716c618997f818369aee18ec2.png
左关联示意图

36b77bb765cad4e081309822ed913063.png
左关联示意图
  • 右关联(right_join)

eec7109d17802ec5ed388a1202743ae4.png
右关联示意图

8871048b153bf56084e9947e4de49126.png
右关联结果
  • 内关联(inner_join)

0bb722bbcaf9bf48116bd688983aa2bb.png
内关联示意图

a74566ec8d60877a080ded3b9894a518.png
内关联结果
  • 外关联(full_join)

e42d2eb5a452375caa58a9a6cabab539.png
外关联示意图

75a57a1a4c7cbf8b84f3da5296f1dfd8.png
外关联结果

二、R语言代码

接下来,直接看一下R语言中数据关联的代码,会使用到dplyr包,没有安装的同学输入install.packages('dplyr')命令进行安装即可。

#install.packages('dplyr')
library(dplyr)
table_a <- data_frame(小区= c('绿川新苑','万邦都市花园'),
                      区域= c('浦东','浦东'),
                      板块= c('北蔡','北蔡'),
                      小区年份= c(1991,2000))

table_b <- data_frame(小区= c('绿川新苑','绿川新苑','樱花坊'),
                      标题= c('25万精装修,中环B11刚需盘','25万精装修,中环B11刚需盘','东边套全明户型,中间位置采光充足'),
                      总价= c(490,370,658),
                      面积= c(108,72,77))

result_left_join <- table_a %>% left_join(table_b, by = '小区')
result_right_join <- table_a %>% right_join(table_b, by = '小区')
result_inner_join <- table_a %>% inner_join(table_b, by = '小区')
result_full_join <- table_a %>% full_join(table_b, by = '小区')

数据关联是数据操作中的基本操作,类似excel的vlookup功能但又不完全一样,大家可以想想两者差别在哪里,相信多加练习后可以很快熟练应用join操作。

数据处理课程:

有马骏:第0课:一个周末学会R语言数据处理:从数据库到数仓再到数据集市​zhuanlan.zhihu.com
1012d38af066725d277282d85d8faac3.png
有马骏:第1课:一个周末学会R语言数据处理:表快速读取​zhuanlan.zhihu.com
1012d38af066725d277282d85d8faac3.png
有马骏:第2课:一个周末学会R语言数据处理:表拆分和拼接​zhuanlan.zhihu.com
1012d38af066725d277282d85d8faac3.png

数据采集课程:

有马骏:第0课:一个周末学会R语言数据采集:数据从哪里来?​zhuanlan.zhihu.com
417d764bab9d19d7e8ec437769540c14.png
有马骏:第1课:一个周末学会R语言数据采集:爬虫介绍​zhuanlan.zhihu.com
a4b6749eb0fc3bd900dc5be8661b6642.png
有马骏:第2课:一个周末学会R语言数据采集:R爬虫环境安装​zhuanlan.zhihu.com
a4b6749eb0fc3bd900dc5be8661b6642.png
有马骏:第3课:一个周末学会R语言数据采集:XPath基础​zhuanlan.zhihu.com
a4b6749eb0fc3bd900dc5be8661b6642.png
有马骏:第4课:一个周末学会R语言数据采集: Selenium常用操作​zhuanlan.zhihu.com
a4b6749eb0fc3bd900dc5be8661b6642.png
有马骏:第5课:一个周末学会R语言数据采集:正则表达式入门​zhuanlan.zhihu.com
a4b6749eb0fc3bd900dc5be8661b6642.png
有马骏:第6课:一个周末学会R语言数据采集:爬取链家小区数据​zhuanlan.zhihu.com
a4b6749eb0fc3bd900dc5be8661b6642.png
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值