kaggle案例：数据科学社区调查报告（附学习视频）

最新推荐文章于 2023-05-31 17:09:32 发布

R语言中文社区

最新推荐文章于 2023-05-31 17:09:32 发布

阅读量1.7k

点赞数

本文链接：https://blog.csdn.net/kMD8d5R/article/details/78908476

版权

作者：邬书豪，车联网数据挖掘工程师，R语言中文社区专栏作者。微信ID：wsh137552775

知乎专栏：https://www.zhihu.com/people/wu-shu-hao-67/activities

本文配套学习视频及代码，点击阅读原文免费获取。

2017年8月26日，全球最大的数据科学社群Kaggle发布了数据科学／机器学习业界现状全行业调查的数据集。调查问卷数据从2017年8月7日~8月25日收集。受访者囊括了来自50多个国家的16，716+位从业者，根据kaggle的调查问卷数据集，我们挖掘一些有营养的信息。

################# =========== 导入数据+简单清洗 ============== #################
library(data.table)  # fread()
library(dplyr)       # group_by() / %>% / summaries()
library(ggplot2)     # ggplot()

responses = fread("D:/R/天善智能/书豪十大案例/数据科学调查\\multipleChoiceResponses.csv")

## 把Country列中的表示中国的特征值改为中国
responses$Country <- ifelse(responses$Country == "Republic of China" |
                              responses$Country == "People 's Republic of China", 
                            "China", responses$Country)

################# =========== 国家+年龄统计 ================ ##################

## 探索数据科学从业者的年龄中位数最大的十个国家
# 创建绘图所需的数据源（按照Country进行统计Age的中位数，并且按照Age进行降序排列）
df_country_age <- responses %>% 
  group_by(Country) %>%                              # 按照Country进行统计
  summarise(AgeMedian = median(Age, na.rm = T)) %>%  # 统计Age的中位数
  arrange(desc(AgeMedian))                           # 按照Age进行降序排列

# reorder(Country, AgeMedian)--按照AgeMedian的升序排列其对应的Country
# head(df_country, 10)--选取数据源的前10行
# x参数中传入图中的x轴所需数据，y参数同理
# geom_bar()--绘制条形图的子函数
# fill = Country--按照Country填充条形图颜色
# stat(统计转换)参数设置为'identity'，即对原始数据集不作任何统计变换
# geom_text()--添加文本注释的子函数
# label = AgeMedian--添加AgeMedian中的内容
# hjust--控制横向对齐（0：底部对齐，  0.5：居中，  1：顶部对齐）
# colour--控制注释颜色
# theme_minimal()--是ggplot的一种主背景主题
ggplot(head(df_country_age, 10), aes(x = reorder(Country, AgeMedian), y = AgeMedian)) + 
  geom_bar(aes(fill = Country), stat = 'identity') + 
  labs(x = 'Country', y = 'AgeMedian') +
  geom_text(aes(label = AgeMedian), hjust = 1.5, colour = 'white') +
  coord_flip() +
  theme_minimal() +
  theme(legend.position = 'none')           # 移除图例

# 封装绘图函数
fun1 <- function(data, xlab, ylab, xname, yname) {
     
  ggplot(data, aes(xlab, ylab)) + 
    geom_bar(aes(fill = xlab), stat = 'identity') + 
    labs(x = xname, y = yname) +
    geom_text(aes(label = ylab), hjust = 1.5, colour = 'white') +
    coord_flip() +
    theme_minimal() +
    theme(legend.position = 'none')
}

data <- head(df_country_age, 10)
xname <- 'Country'
yname <- 'AgeMedian'
fun1(data, reorder(data$Country, data$AgeMedian), data<

最低0.47元/天解锁文章

R语言中文社区

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
kaggle案例：数据科学社区调查报告（附学习视频）

作者：邬书豪，车联网数据挖掘工程师，R语言中文社区专栏作者。微信ID：wsh137552775知乎专栏：https://www.zhihu.com/people/wu-shu-hao-67/activities本文配套学习视频及代码，点击阅读原文免费获取。2017年8月26日，全球最大的数据科学社群Kaggle发布了数据科学／机器学习业界现状全行业调查的数据集。调查问卷数据从2017年8月7日~
复制链接

扫一扫