建模问题及解决方案:由生物教材构建分类(Modeling Issues and Solutions:Building a Taxonomy from a Biology Textbook)

翻译 2012年03月22日 11:05:37

1 引言

我们在Halo项目中的任务之一是根据进阶生物学教材的词汇表术语创建分类。Halo项目的目标是构建能够回答并解决广泛的科学学科中的新奇和高级问题的推理系统。为了实现这一目标,分类结果将被用作将生物教材中的段落翻译为推理系统所能操作的逻辑公式的基础。

为了辅助展开我们的工作,我们输入2400个来自教材电子词汇表的词汇表术语和定义字符串到OWL格式的Collaborative Protege中作为类和常量字符串。我们的小组由生物学家和KR专家组成。我们采取了一种迭代的方式。小组中的生物学家进行初始的分类,限定subclass-of关系,并且加入他们所认为合适的其他类。与此同时,工作组会议中会确定并讨论建模问题。这些问题及解决方法将按下面的步骤实现。

 

2 结果

2.1 实体/角色二分法

初始时,我们小组的生物学家基于结构和功能为有机模块(organic-Molecule)编写类(见图1)。

例如,蛋白质(protein)和类固醇(steroid)是根据它们的化学组成进行定义。与此相反,激素(hormone)则是根据它们执行的功能被定义,这样类固醇和激素之间就会有重叠,如一些激素是类固醇而另一些激素是蛋白质。

作为一个解决方法,我们把激素定义为某些化学元素所扮演的角色。然而,类固醇-激素在分类学中仍然是一个类,它代表了生物学家直观思考所得的一个有用的类(见图2和3)。


2.2 林奈式生物分类

我们小组中的生物学家想要把不同领域分类都归到领域(Kingdom)这一类下(见图4)。


然而领域有5个实例(基于美国的教科书)。

作为一个解决方法,我们对有机物采用林奈分类学,并且用常见的英语名称来简化(见图5)。例如“Cow is an Animal”比“Cow is an Animalia”更简洁明白。


作为潜在的改进,我们可以加入拉丁文命名的类来作为它们分类单元的实例(见图6)。例如,Animalia是Kingdom的一个实例,而Chordata是Phylum的一个实例。还有一个方法(此处没有给出图示),我们可以把分类单元作为元类。例如,Chordate是元类Phylum的一个实例,而Animal是元类Kingdom的一个实例。

2.3 实体/过程二分法

我们小组的生物学家想要把Light-Microscope归类到子类Technology之下(见图7)。


他们还想把Technology归类到子类Inquiry之下。这两次使用术语Technology有着两种不同的含义。Technology的词汇表定义是“为某种特定目的而应用科学知识,通常涉及工业或商业,也包括在基础研究中的使用”。

我们对该问题的解决方法是重构分类(见图8和9)。


我们注意到词汇表中的一些术语是一词多义的。包括“;also”在内的定义就是说明这种情况的一个很好的例子。例如,野生类型(Wild Type)是“An individual with the phenotype most commonly observed in natural populations; also refers to the phenotype itself.”

2.4 对研究领域的分类

我们初步倾向于将研究领域(如Genetics,Anatomy,Ecology)归类于Inquiry之下。研究领域是一个复杂的社会实体,涉及研究活动和教育机构,教育机构又由部门、成员、项目和课程组成。然而,对每个研究领域的术语定义都以“the scientific study of”为前缀。在当前情况下,把它们归类于Inquiry之下是合适的。

2.5 子类/子过程二分法

我们初步倾向于使用层次来组织子部分或子过程(见图10)。例如,Telophase是Mitosis的一个子类,而不是一个子过程。

我们解决此问题的方法是无论什么时候发现子部分或子过程,我们就把它们移动到适当的位置(见图11)。在工作组会议中,我们对如何使用子类关系增强了一致的认识。


3 结论

开始,我们小组的生物学家依赖于先验知识和定义来组织类的层次,而类被当做是有组织的“桶”。我们迭代地应用本体的原则来确认建模问题,并为分类构建过程提供基础。

经过几次工作组会议之后,生物学家对建模问题的这些类型有更好的认知,因此在后续的分类构建过程中有更好的工作效率。这些经验教训和分类的结果都可以帮助AURA更好地回答“What is”这样的问题。除此之外,这些经验教训还可以应用于其他本体,虽然还要考虑它使用什么样的形式化方法(如处理元类)。

数学建模————统计问题之分类/聚类(二)

首先要弄明白分类和聚类的区别:      分类(判别):数据包含数据特征部分和样本标签部分,分类的目的就是判别新的数据特征到其应有的样本标签(类别)中。       比方说,现在告诉大家一个教室里面...
  • nightmare_dimple
  • nightmare_dimple
  • 2017年07月03日 20:33
  • 673

Spark构建分类模型

以逻辑回归模型举例介绍完整的分类模型构建过程。  数据集下载:http://www.kaggle.com/c/stumbleupon 该数据集是关于网页中推荐的页面是短暂存在还是可以长时间...
  • qq_26091271
  • qq_26091271
  • 2016年11月01日 22:08
  • 530

数学建模四大模型总结

文章作者吴翔 1        优化模型 1.1   数学规划模型 线性规划、整数线性规划、非线性规划、多目标规划、动态规划。 1.2   微分方程组模型 阻滞增长模型、SARS传播模型。 ...
  • qq_27848507
  • qq_27848507
  • 2016年08月09日 11:02
  • 6089

【java集合框架源码剖析系列】java源码剖析之TreeMap

注:博主java集合框架源码剖析系列的源码全部基于JDK1.8.0版本。本博客将从源码角度带领大家学习关于ArrayList的知识。 一TreeMap的定义: public class TreeMap...
  • htq__
  • htq__
  • 2016年04月04日 09:20
  • 1418

数学建模四类基本模型

四类基本模型 1         优化模型 1.1      数学规划模型 线性规划、整数线性规划、非线性规划、多目标规划、动态规划。 1.2      微分方程组模型 ...
  • sinat_29741049
  • sinat_29741049
  • 2015年08月13日 13:38
  • 4647

面向小数据集构建图像分类模型

本文地址:http://blog.keras.io/building-powerful-image-classification-models-using-very-little-data.html ...
  • u012260637
  • u012260637
  • 2017年02月02日 13:20
  • 2255

利用Modeller构建未知序列三维结构(利用cryo-EM map)的详细流程

本教程通过翻译网站中的实际例子来完成 前提条件: 1>未知蛋白结构的氨基酸序列 2>蛋白的cryo-EM map   步骤一: 找到一个合适的模板,首先将未知序列保存成modeller能够...
  • rogerzhanglijie
  • rogerzhanglijie
  • 2014年01月17日 15:03
  • 3480

JIRA 问题(Issues)宏

JIRA 是 Atlassian 提供的缺陷跟踪和项目管理系统。通过向 Confluence 页面中添加 JIRA 问题(Issues)宏,你可以将一个或者多个问题显示到 JIRA 中。你也可以选择从...
  • u013587602
  • u013587602
  • 2014年02月16日 07:04
  • 1431

关于深度学习在生物学领域的应用分析

深度学习 生物 医药 应用
  • xunan003
  • xunan003
  • 2017年12月18日 19:52
  • 535

熟练使用Issues

本文主要介绍了github中issues的功能及其用法,另外也涉及到了它的一些高级用法。...
  • github_30605157
  • github_30605157
  • 2016年10月17日 13:01
  • 7549
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:建模问题及解决方案:由生物教材构建分类(Modeling Issues and Solutions:Building a Taxonomy from a Biology Textbook)
举报原因:
原因补充:

(最多只允许输入30个字)