ADaM学习之数据集注意事项

ADaM数据集注意事项

一般变量规则

1、 为了符合 SAS 第 5 版的传输文件格式和 Oracle 的限制条件,

  1. 所有的 ADaM 变量名称的长度不得超过 8 个字节,
  2. 以字母(非下划线)开头,
  3. 必须由英文字母(A-Z),下划线(_),和数字(0-9)组成。
  4. 所有 ADaM 变量的标签的长度不得超过 40 个字节。
  5. 所有 ADaM字符型变量的长度不得超过 200 字节。

2、 在本文中,出现在变量名称或者变量标签中的小写字母“w”,“xx”,“y”,和“zz”必须根据如下规定替换成真正的变量名称或标签。

a. 变量名称中的小写字母“w”(如 PHwSDT,PxxSwSDT)是第 w 个变量的索引,其中“w”应被替换成一位数字[1-9]。

b. 变量名称中的字母“xx”(如 TRTxxP,APxxSDT)是指一个特定的阶段,其中“xx”应被替换成两位补零整数[01-99]。在变量名称中使用“xx”需受限于该阶段的定义。

c. 变量名称中的小写字母“y”(如 SITEGRy)是指一个分组,或其它分类方案,或分析标准,或分析范围,应被一个整数替换[1-99,不补零]。在少数情况下需要使用两位索引,而由此导致变量名称的长度超过了 8 个字节时,缩短原变量名称或许是有必要的。在这种情形下,推荐对相对应的字符类型和数值类型的变量都作同样的缩短处理。

d. 变量名称中的小写字母“zz”(如 ANLzzFL)是指第 zz 个变量的索引,其中“zz”应被替换成两位补零整数[01-99]。注意:“xx”代表的是一个指定的阶段,而“zz”只代表简单的计数。

e. 如果一个数据集包含了一个加了索引的变量,那么该变量顺序之前的变量不一定需要被纳入。例如:一个数据集有 ANL02FL 但不一定需要 ANL01FL。

3、ADaM 数据集中的任何变量如果跟某一 SDTM 变量同名,那么该变量就必须是 SDTM 变量的复制,而它的标签,涵义和值都不能被改变。 ADaM 遵循“相同名称,相同涵义,相同值”的统一原则。但是,有时候为了优化数据集的文件大小,变量长度的不一致是允许的(如:尾部空白会被移除)。在大多数情况下,从 SDTM 复制一个变量是非常合理的。例如:–SEQ 变量对可追溯性非常有用。

但是在某些情况下,新建一个具备有意义的变量名称的 ADaM 变量,且规定相应的清楚且无歧义的元数据是完全可以接受的,甚至大有好处。有些SDTM 变量可能从相应的 SDTM 背景中移除就没有意义了。例如:SDTM 变量 DSDECOD 的涵义也许会依赖其它变量如 DSCAT 和DSSCAT,而根本上取决于特定研究中的数据是如何收集和映射到 SDTM 的。因此最好能建立一个定义清楚的 ADaM 变量。在任何情况下,无论值以何种方式被修改,都务必在 ADaM 变量中进行,而在 SDTM 变量同名的变量中进行修改是禁止的。

4. 当一个 ADaM 的标准变量名称已被赋于一个特定的含义,那就必须要使用这个变量名称,哪怕这个变量的内容是直接从 SDTM 变量的内容复制的。 例如:在建立 ADLB 的过程中,哪怕 AVAL 只是 LBSTRESN 的复制,数据集也必须要包括 AVAL。

5、变量名称以 FL 结尾的字符型标记(或标志)变量,至少含有两种可能的非空值,Y 或 N(即,是或否)。 相应的数值型标记(或标志)变量以 FN 结尾。如果标记被纳入了 ADaM 数据集,那么字符版本 (*FL) 是必须的,但是相应的数值版本 (*FN) 也是可以被纳入的,且两个变量之间必须一一对应。

**6、变量名称以 GRy,Gy 或者 CATy 结尾的分组变量,其中 y 指的是分组方案或算法(不是指分组里的类别)。**例如,SITEGR3 是包含中心分组(合并中心)名称的变量名称,其中分组是根据第三种中心分组的算法合并的;SITEGR3 并不意味着第三组中心。在本文中,后缀 CATy 被用作 ADaM 指定的分析变量的分类(如:CHGCATy 是 CHG 的分类)。

7、对于开发者自定义的分组或者分类变量,建议以被分组的变量名称开头而以 GRy 结尾(如:变量 ABCGRy 是用于分析的,对变量ABC 的值的分组或分类的字符描述)。 如果一个分组变量来自已完成的 SDTM 变量,那么这个推导出的 ADaM 字符型分组变量应该以SDTM 变量名称开头而以 GRy 结尾的(GRyN 用于等价的数值型),其中 y 是一个代表分组方案的整数[1-99,不补零]。例如:如果一个产生自 SDTM RACE 变量的字符型分析变量包含高加索人和非高加索人这两个值,那么这个变量应当被命名为 RACEGRy,而其等价的数值型应当被命名为 RACEGRyN(如:RACEGR1, RACEGR1N)。如表 3.1.5.1 所述,当以 GRy 建立的变量名称长度超过 8 个字节,Gy 可用来缩略 GRy。当添加后缀 GRy,GRyN,Gy,或 GyN 时,缩短原变量名称或许是有必要的。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
搭建图像分类神经网络时,需要注意以下几点: 1. 数据预处理:在搭建神经网络之前,需要对图像数据进行预处理,包括图像尺寸的调整、灰度化或彩色化、数据标准化等,以便网络能够更好地处理和学习图像特征。 2. 网络架构选择:选择适合图像分类任务的网络架构,如卷积神经网络(Convolutional Neural Network, CNN),CNN在图像处理领域表现出色。可以使用已经被广泛验证的经典网络结构,如LeNet、AlexNet、VGG、ResNet等,或者根据任务需求自行设计网络结构。 3. 激活函数选择:合适的激活函数能够帮助网络更好地捕捉并表示图像特征,常用的激活函数有ReLU、Sigmoid和Tanh等,根据网络的层数和任务需求选择合适的激活函数。 4. 损失函数选择:选择合适的损失函数来衡量预测输出与真实标签之间的差距,常用的损失函数有交叉熵损失函数(cross-entropy loss)和均方误差损失函数(mean squared error loss)。根据分类任务的特点选择适合的损失函数。 5. 优化算法选择:选择适合的优化算法来更新网络参数,常用的优化算法有随机梯度下降(SGD)、Adam和Adagrad等。根据网络的复杂度和效果选择合适的优化算法。 6. 数据集划分:为了评估网络的性能,需要将数据集划分为训练集、验证集和测试集。训练集用于网络参数的更新,验证集用于调整超参数和网络结构,测试集用于最终评估网络的性能。 7. 正则化:为了防止过拟合,可以采用正则化技术,如L1或L2正则化、Dropout等,以提高网络的泛化能力。 8. 超参数调优:调整网络的超参数,如学习率、批量大小、网络层数等,以获得更好的性能。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值