加载样本数据
加载从 100 位患者收集的样本数据。
load patients
whos
Name Size Bytes Class Attributes
Age 100x1 800 double
Diastolic 100x1 800 double
Gender 100x1 11412 cell
Height 100x1 800 double
LastName 100x1 11616 cell
Location 100x1 14208 cell
SelfAssessedHealthStatus 100x1 11540 cell
Smoker 100x1 100 logical
Systolic 100x1 800 double
Weight 100x1 800 double
基于字符向量元胞数组创建分类数组
Gender 和 Location 包含各类别中的数据。每个元胞数组都包含从一小组唯一值中获取的字符向量(分别表示两个性别和三个位置)。将 Gender 和 Location 转换为分类数组。
Gender = categorical(Gender);
Location = categorical(Location);
搜索单个类别的成员
对于分类数组,可以使用逻辑运算符 == 和 ~= 来查找属于或不属于特定类别的数据。
确定是否存在到 'Rampart General Hospital' 位置就医的任何患者。
any(Location=='Rampart General Hospital')
ans = logical
0
不存在到 Rampart General Hospital 就医的患者。
搜索一组类别的成员
您可以使用 ismember 查找一组特定类别中的数据。为到 County General Hospital 或 VA Hospital 就医的患者创建一个逻辑向量。
VA_CountyGenIndex = ...
ismember(Location,{'County General Hospital','VA Hospital'});
VA_CountyGenIndex 是一个 100x1 的逻辑数组,对于分类数组 Location 中属于 County General Hospital 或 VA Hospital 类别的成员的每个元素,该数组都会在其对应位置包含逻辑值 true (1)。输出 VA_CountyGenIndex 包含 76 个非零元素。
使用逻辑向量 VA_CountyGenIndex 选择在 County General Hospital 或 VA Hospital 就医的患者的 LastName。
VA_CountyGenPatients = LastName(VA_CountyGenIndex);
VA_CountyGenPatients 是一个 76×1 的字符向量元胞数组。
选择特定类别中的元素以绘图
使用 summary 函数可输出一份包含每一类别的类别名称及元素数的摘要。
summary(Location)
County General Hospital 39
St. Mary's Medical Center 24
VA Hospital 37
Location 是一个包含三个类别的 100×1 分类数组。County General Hospital 出现在 39 个元素中,St. Mary s Medical Center 出现在 24 个元素中,VA Hospital 出现在 37 个元素中。
使用 summary 函数输出 Gender 的摘要。
summary(Gender)
Female 53
Male 47
Gender 是一个包含两个类别的 100×1 分类数组。Female 出现在 53 个元素中,Male 出现在 47 个元素中。
使用逻辑运算符 == 仅访问女性患者的年龄。然后利用这些数据绘制一个直方图。
figure()
histogram(Age(Gender=='Female'))
title('Age of Female Patients')
histogram(Age(Gender=='Female')) 对 53 个女性患者的年龄数据绘图。
删除特定类别中的数据
您可以使用逻辑运算符包括或排除特定类别中的数据。删除工作区变量 Age 和 Location 中到 VA Hospital 就医的所有患者。
Age = Age(Location~='VA Hospital');
Location = Location(Location~='VA Hospital');
现在,Age 是一个 63×1 的数值数组,Location 是一个 63×1 的分类数组。
列出 Location 的类别以及每个类别中的元素数。
summary(Location)
County General Hospital 39
St. Mary's Medical Center 24
VA Hospital 0
到 VA Hospital 就医的患者已从 Location 中删除,但 VA Hospital 仍是一个类别。
使用 removecats 函数从 Location 的类别中删除 VA Hospital。
Location = removecats(Location,'VA Hospital');
验证 VA Hospital 类别是否已删除。
categories(Location)
ans = 2x1 cell
{'County General Hospital' }
{'St. Mary's Medical Center'}
Location 是一个包含两个类别的 63×1 分类数组。
删除元素
您可以按索引删除元素。例如,您可以通过使用 Location(2:end) 选择其余元素来删除 Location 的第一个元素。不过,更简单的元素删除方式是使用 []。
Location(1) = [];
summary(Location)
County General Hospital 38
St. Mary's Medical Center 24
Location 是一个包含两个类别的 62×1 分类数组。删除第一个元素对同一类别中的其他元素没有任何影响,并且不会删除该类别本身。
检查未定义的数据
从 Location 中删除类别 County General Hospital。
Location = removecats(Location,'County General Hospital');
显示分类数组 Location 的前八个元素。
Location(1:8)
ans = 8x1 categorical
St. Mary's Medical Center
St. Mary's Medical Center
St. Mary's Medical Center
St. Mary's Medical Center
St. Mary's Medical Center
删除 County General Hospital 类别后,先前属于该类别的元素不再属于为 Location 定义的任何类别。分类数组将这些元素表示为 undefined。
使用 isundefined 函数可查找被测数据中不属于任何类别的值。
undefinedIndex = isundefined(Location);
undefinedIndex 是一个 62×1 的分类数组,其中与 Location 中所有未定义元素相对应的位置均包含逻辑值 true (1)。
设置未定义的元素
使用 summary 函数输出 Location 中未定义的元素数量。
summary(Location)
St. Mary's Medical Center 24
38
Location 的第一个元素属于 St. Mary's Medical Center 类别。将第一个元素设置为 undefined,使其不再属于任何类别。
Location(1) = '';
summary(Location)
St. Mary's Medical Center 23
39
您可以将选定元素设置为 undefined 而不删除类别或更改其他元素的类别。将元素设置为 undefined 以指示包含未知值的元素。
预分配包含未定义元素的分类数组
您可以使用未定义的元素预分配分类数组的大小,以提高性能。创建一个分类数组,其中包含仅具有已知位置的元素。
definedIndex = ~isundefined(Location);
newLocation = Location(definedIndex);
summary(newLocation)
St. Mary's Medical Center 23
扩展 newLocation 的大小,使其成为一个 200×1 的分类数组。将上一新元素设置为 undefined。所有其他新元素也会设置为 undefined。23 个原始元素将保留它们已有的值。
newLocation(200) = '';
summary(newLocation)
St. Mary's Medical Center 23
177
newLocation 可为您计划以后存储到数组中的值留出空间。