数据科学与大数据分析之项目2-聚类

项目介绍

文件TreeDB.csv包含258个树种的描述。数据由XX市议会开放空间和环境服务部管理处提供。已提供数据集作为公共空间最佳树木选择合作项目的一部分。假设你是该项目团队的一员。进一步假设你决定参与聚类分析是更好地理解数据集属性的一部分。为了这个练习你应该只考虑特征(属性)“高度”、“宽度”、“表面积”和“盐”。

  1. 描述您对此数据集的观察,例如示例的数量、特征的数量以及这些选定特征的含义。您还应该使用summary()函数来帮助您获得更多的理解。

  2. 绘制此数据集选定属性的散点图矩阵,以可视化四个属性之间的成对关系。

  3. 对所选属性执行K-means聚类分析并报告结果。并解释你选择的簇数。

  4. 对所选属性执行DBScan聚类并报告结果。解释如何选择参数Eps和minPts。

  5. 可视化聚类结果。

项目开始

  1. 读取数据并查看简介
task2 <- read.csv("TreeDB.csv")
summary(task2)

在这里插入图片描述
这个数据集中有258个例子。每个示例包含29个特征。高和宽代表树的宽和高;表面面积是与叶有关,盐是耐受性。高度、宽度和表面区域为数字数据类型。Salt是逻辑数据类型,它只包含“low”、“medium”和“high”三种值。

  1. 绘制此数据集选定属性的散点图矩阵,以可视化四个属性之间的成对关系。
library(plyr)
library(ggplot2)
library(cluster)
library(lattice)
library(graphics)
library(grid)
library(gridExtra)

feature_input = as.data.frame(task2)
feature_input$Salt = as.numeric(feature_input$Salt)
#更改Salt中的数据类型
feature_input
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值