R语言关于房地产数据清洗

> library(readxl) #加载读取excel包
> data=read_excel("E:/R/房地产招聘1.xlsx") #读取数据
> str(data) #查看数据结构
Classes ‘tbl_df’, ‘tbl’ and 'data.frame':       929 obs. of  11 variables:
 $ 招聘岗位    : chr  "新媒体运营经理" "自如管家(销售服务,均薪8K+,六险一金))" "4000无责底薪+0基础销售系统化培训+公平晋升平台" "品牌策划主管" ...
 $ 招聘公司    : chr  "上海创智空间投资管理集团有限公司" "北京自如生活资产管理有限公司" "杭州华邦房地产代理有限公司" "大百汇实业集团有限公司" ...
 $ 薪资(最低): chr  "0.9万/月" "0.8万/月" "0.8万/月" "0.6万/月" ...
 $ 薪资(最高): chr  "1.2万/月" "1万/月" "1万/月" "1万/月" ...
 $ 工作经验    : chr  "3-4年经验" "1年经验" "无工作经验" "3-4年经验" ...
 $ 学历        : chr  "本科" "本科" "大专" "本科" ...
 $ 招聘人数    : num  1 6 12 1 1 4 12 2 2 10 ...
 $ 公司性质    : chr  "民营公司" "民营公司" "民营公司" "民营公司" ...
 $ 公司规模    : chr  "<U+00A0><U+00A0><U+00A0><U+00A0>50-150" "<U+00A0><U+00A0><U+00A0><U+00A0>5000-10000" "<U+00A0><U+00A0><U+00A0><U+00A0>1000-5000" "<U+00A0><U+00A0><U+00A0><U+00A0>150-500" ...
 $ 公司产业    : chr  "<U+00A0><U+00A0><U+00A0><U+00A0>房地产,多元化业务集团公司" "<U+00A0><U+00A0><U+00A0><U+00A0>互联网/电子商务,房地产" "<U+00A0><U+00A0><U+00A0><U+00A0>房地产" "<U+00A0><U+00A0><U+00A0><U+00A0>房地产,多元化业务集团公司" ...
 $ 公司信息    : chr  ".创智空间集团总部位于上海浦东新区张江核心区的地铁2号线金科路站,是一家拥有10多年服务经验、完善服务体系和配套设"| __truncated__ "北京自如生活资产管理有限公司(以下简称自如)是提供高品质的居住产品与服务的互联网O2O品牌,旗下拥有自如友家、自如"| __truncated__ "<U+00A0>公司名称:杭州华邦房地产代理有限公司公司地址:杭州市豪世华邦各大分公司(工作地点可根据住址就近分配)公司"| __truncated__ "<U+00A0><U+00A0><U+00A0><U+00A0>大百汇实业集团有限公司创立于1994年,通过二十年的发展,已成长为具有良好经济实力"| __truncated__ ...
 > head(data) #查看数据前六行
# A tibble: 6 x 11
  招聘岗位 招聘公司 `薪资(最低)` `薪资(最高)` 工作经验 学历  招聘人数
  <chr>    <chr>    <chr>          <chr>          <chr>    <chr>    <dbl>
1 新媒体运营经理~ 上海创智空间投~ 0.9万/月       1.2万/月       3-4年经验~ 本科         1
2 自如管家(销售~ 北京自如生活资~ 0.8万/月       1万/月         1年经验  本科         6
3 4000无责底~ 杭州华邦房地产~ 0.8万/月       1万/月         无工作经验~ 大专        12
4 品牌策划主管~ 大百汇实业集团~ 0.6万/月       1万/月         3-4年经验~ 本科         1
5 高新诚聘-策划~ 济南金鹏翔房地~ 0.6万/月       1万/月         2年经验  大专         1
6 置业顾问 江苏仙林百里置~ 0.5万/月       1万/月         3年经验  大专         4
# ... with 4 more variables: 公司性质 <chr>, 公司规模 <chr>, 公司产业 <chr>,
#   公司信息 <chr>
> data$公司产业=gsub("\\s","",data$公司产业) #gsub()数据框中的函数是gsub,基本书写格式为:data$变量=gsub(“变量里包含的文字”,data $变量)
> data$公司规模=gsub("\\s","",data$公司规模)#用\\s将数据替换为空格变规整
> data$公司信息=gsub("\\s","",data$公司信息)
> str(data)
Classes ‘tbl_df’, ‘tbl’ and 'data.frame':       929 obs. of  11 variables:
 $ 招聘岗位    : chr  "新媒体运营经理" "自如管家(销售服务,均薪8K+,六险一金))" "4000无责底薪+0基础销售系统化培训+公平晋升平台" "品牌策划主管" ...
 $ 招聘公司    : chr  "上海创智空间投资管理集团有限公司" "北京自如生活资产管理有限公司" "杭州华邦房地产代理有限公司" "大百汇实业集团有限公司" ...
 $ 薪资(最低): chr  "0.9万/月" "0.8万/月" "0.8万/月" "0.6万/月" ...
 $ 薪资(最高): chr  "1.2万/月" "1万/月" "1万/月" "1万/月" ...
 $ 工作经验    : chr  "3-4年经验" "1年经验" "无工作经验" "3-4年经验" ...
 $ 学历        : chr  "本科" "本科" "大专" "本科" ...
 $ 招聘人数    : num  1 6 12 1 1 4 12 2 2 10 ...
 $ 公司性质    : chr  "民营公司" "民营公司" "民营公司" "民营公司" ...
 $ 公司规模    : chr  "50-150" "5000-10000" "1000-5000" "150-500" ...
 $ 公司产业    : chr  "房地产,多元化业务集团公司" "互联网/电子商务,房地产" "房地产" "房地产,多元化业务集团公司" ...
 $ 公司信息    : chr  ".创智空间集团总部位于上海浦东新区张江核心区的地铁2号线金科路站,是一家拥有10多年服务经验、完善服务体系和配套设"| __truncated__ "北京自如生活资产管理有限公司(以下简称自如)是提供高品质的居住产品与服务的互联网O2O品牌,旗下拥有自如友家、自如"| __truncated__ "公司名称:杭州华邦房地产代理有限公司公司地址:杭州市豪世华邦各大分公司(工作地点可根据住址就近分配)公司主页:ht"| __truncated__ "大百汇实业集团有限公司创立于1994年,通过二十年的发展,已成长为具有良好经济实力和一定创新能力的民营企业集团。大"| __truncated__ ...
> newdata=data[complete.cases(data),] #剔除缺失值
> dim(newdata)##689查看数据维度
[1] 689  11
> names(newdata)[3]=("最低薪资") #将第三个变量薪资(最低)变为最低薪资
> str(newdata) #查看数据结构
Classes ‘tbl_df’, ‘tbl’ and 'data.frame':       689 obs. of  11 variables:
 $ 招聘岗位    : chr  "新媒体运营经理" "自如管家(销售服务,均薪8K+,六险一金))" "4000无责底薪+0基础销售系统化培训+公平晋升平台" "品牌策划主管" ...
 $ 招聘公司    : chr  "上海创智空间投资管理集团有限公司" "北京自如生活资产管理有限公司" "杭州华邦房地产代理有限公司" "大百汇实业集团有限公司" ...
 $ 最低薪资    : chr  "0.9万/月" "0.8万/月" "0.8万/月" "0.6万/月" ...
 $ 薪资(最高): chr  "1.2万/月" "1万/月" "1万/月" "1万/月" ...
 $ 工作经验    : chr  "3-4年经验" "1年经验" "无工作经验" "3-4年经验" ...
 $ 学历        : chr  "本科" "本科" "大专" "本科" ...
 $ 招聘人数    : num  1 6 12 1 1 4 12 2 2 10 ...
 $ 公司性质    : chr  "民营公司" "民营公司" "民营公司" "民营公司" ...
 $ 公司规模    : chr  "50-150" "5000-10000" "1000-5000" "150-500" ...
 $ 公司产业    : chr  "房地产,多元化业务集团公司" "互联网/电子商务,房地产" "房地产" "房地产,多元化业务集团公司" ...
 $ 公司信息    : chr  ".创智空间集团总部位于上海浦东新区张江核心区的地铁2号线金科路站,是一家拥有10多年服务经验、完善服务体系和配套设"| __truncated__ "北京自如生活资产管理有限公司(以下简称自如)是提供高品质的居住产品与服务的互联网O2O品牌,旗下拥有自如友家、自如"| __truncated__ "公司名称:杭州华邦房地产代理有限公司公司地址:杭州市豪世华邦各大分公司(工作地点可根据住址就近分配)公司主页:ht"| __truncated__ "大百汇实业集团有限公司创立于1994年,通过二十年的发展,已成长为具有良好经济实力和一定创新能力的民营企业集团。大"| __truncated__ ...
 
 > newdata$最低薪资=ifelse(substr(newdata$最低薪资,nchar(newdata$最低薪资)-2,nchar(newdata$最低薪资))=='万/月',#nchar()获取字符串长度
+          as.numeric(gsub("万/月","",newdata$最低薪资))*10000,
+           as.numeric(gsub("千/月","",newdata$最低薪资))*1000)

> names(newdata)[4]=("最高薪资")#将第四个变量资薪资(最高)变为最高薪资
> newdata$最高薪资=ifelse(substr(newdata$最高薪资,nchar(newdata$最高薪资)-2,nchar(newdata$最高薪资))=='万/月',
+          as.numeric(gsub("万/月","",newdata$最高薪资))*10000,
+           as.numeric(gsub("千/月","",newdata$最高薪资))*1000)

> str(newdata)
Classes ‘tbl_df’, ‘tbl’ and 'data.frame':       689 obs. of  11 variables:
 $ 招聘岗位: chr  "新媒体运营经理" "自如管家(销售服务,均薪8K+,六险一金))" "4000无责底薪+0基础销售系统化培训+公平晋升平台" "品牌策划主管" ...
 $ 招聘公司: chr  "上海创智空间投资管理集团有限公司" "北京自如生活资产管理有限公司" "杭州华邦房地产代理有限公司" "大百汇实业集团有限公司" ...
 $ 最低薪资: num  9000 8000 8000 6000 6000 5000 5000 6000 6000 3000 ...
 $ 最高薪资: num  12000 10000 10000 10000 10000 10000 8000 8000 8000 4500 ...
 $ 工作经验: chr  "3-4年经验" "1年经验" "无工作经验" "3-4年经验" ...
 $ 学历    : chr  "本科" "本科" "大专" "本科" ...
 $ 招聘人数: num  1 6 12 1 1 4 12 2 2 10 ...
 $ 公司性质: chr  "民营公司" "民营公司" "民营公司" "民营公司" ...
 $ 公司规模: chr  "50-150" "5000-10000" "1000-5000" "150-500" ...
 $ 公司产业: chr  "房地产,多元化业务集团公司" "互联网/电子商务,房地产" "房地产" "房地产,多元化业务集团公司" ...
 $ 公司信息: chr  ".创智空间集团总部位于上海浦东新区张江核心区的地铁2号线金科路站,是一家拥有10多年服务经验、完善服务体系和配套设"| __truncated__ "北京自如生活资产管理有限公司(以下简称自如)是提供高品质的居住产品与服务的互联网O2O品牌,旗下拥有自如友家、自如"| __truncated__ "公司名称:杭州华邦房地产代理有限公司公司地址:杭州市豪世华邦各大分公司(工作地点可根据住址就近分配)公司主页:ht"| __truncated__ "大百汇实业集团有限公司创立于1994年,通过二十年的发展,已成长为具有良好经济实力和一定创新能力的民营企业集团。大"| __truncated__ ...
> table(newdata$公司性质) #查看公司性质
      创业公司           国企           合资       民营公司       上市公司 
             3             20             31            543             40 
    外企代表处 外资(非欧美)   外资(欧美) 
             1             45              6 
> newdata$公司性质=ifelse(newdata$公司性质 %in% c("外企代表处","外资(非欧美)","外资(欧美)"),
+ "外资",(ifelse(newdata$公司性质=="合资","合资","中资"))) #将外企代表处","外资(非欧美)","外资(欧美)合并为外资
> table(newdata$公司性质)

合资 外资 中资 
  31   52  606 
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值