简介
机器学习的定义为“一个计算机程序通过执行一些任务T得到评价P,从而得到经验E,如果程序能通过任务T和评价P得到更好的经验 E,那么我们就学这个程序进行了机器学习。” 机器学习是否有效往往取决于数据的多少,以及数据的质量。大量高质量的数据可以产生更好的结果。随着医疗行业的发展,产生了大量的临床数据和科学研究数据。大数据和机器学习基于更好的决策,优化后的创新的特点,大大的提高了医生或者科研人员的科学研究和临床试验工作效率。通过对研发部门,医生和诊所,病人,护理人员等记录的临床或者科研数据进行收集,利用机器学习的方法进行整合分析。可以用来改善或者解决医疗保健基础结构和治疗水平的一些问题。机器学习在生物学中的应用主要分为监督学习 ( Supervised learning )和无监督学习( unsupervised learning )。
机器学习方法介绍
- 监督学习 ( Supervised learning ) 是从给定的训练数据集中学习出一个函数,当新的数据到来时,可以根据这个函数预测结果。通俗的说,确定是否是监督学习的方法就是,确定研究人员是不是要得到一个答案。监督学习中有非常重要的一类,就是分类( classification )问题。在分类问题中,想要预测的变量是离散的,不是连续的。例如肿瘤的大小、病人年龄和肿瘤是良性还是恶性的数据。
- 无监督学习( unsupervised learning )与监督学习相比,训练集没有人为标注的结果。机器学习的目的就是能从这些数据中找到一定的规律。无监督学习中一个重要的部分就是聚类 ( clustering ) 算法。例如,如果想在混杂的生物或医学样本中分出不同类群,就是使用无监督学习的办法。