当前（2019年）机器学习中有哪些研究方向特别的坑？

最新推荐文章于 2024-08-27 00:00:00 发布

喜欢打酱油的老鸟

最新推荐文章于 2024-08-27 00:00:00 发布

阅读量2.2k

点赞数 1

原文链接：https://www.zhihu.com/question/299068775/answer/673553549

版权

人工智能专栏收录该内容

4209 篇文章 350 订阅

订阅专栏

作者：wei chris
链接：https://www.zhihu.com/question/299068775/answer/673553549
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

先声明我对坑的理解。使用真实世界数据，且真正可以为医疗所用，才能不算坑。使用医学的公开数据集，可以保证你发文章毕业，或者融到资，但是离落地使用还有很远的路要走。

看到几位吐槽医疗ai，感同身受。当今以统计为主要范式的机器学习落地的时候都会有坑的感觉。甚至我个人认为落地最好的推荐系统和cv领域也被批判。和其他领域相比，医疗ai的坑我觉得最突出的是数据获取和行业认同。诸如模型泛化和调参在别的领域也广泛存在，非医疗独有。

1数据获取，包括可能性和数据质量。可能性主要包括说不清道不明的数据安全和医院内部多达上百种信息系统和格式。

数据安全和隐私这块，我个人觉得真的没有标准，各个医院和部门之间标准各异。有些医院非常宽松，数据经过伦理委员审查就可以出院。而有些医院强制要求每一位病人的信息都需要经过患者本人知情同意，才能出院。一个项目多达上万病例，挨个打电话，简直不要太酸爽。再者，对于拿到的数据原则上不能有病人的唯一识别信息，这其实极大的限制了基于病人（而非病例）的各种研究。我的一个大学同学在巴黎做类似的项目，法国要求研发人员必须驻医院，他本人也是无力吐槽。

对于医院内部纷繁复杂的数据系统，his，pacs，pims诸如此类，每一种系统都可能有几十个厂商的接口。每个厂商的格式，定义都不同，你叫特殊检查，我叫免疫组化，他叫病理检查。还有你无法穷尽的数据格式。这个问题是历史遗留问题了，早期医院购买各种信息系统，其专业性和逻辑性都非常糟糕，未必有经典的图书馆管理系统复杂，就这样一套系统就入院了，医生可以随便写，随便画，作首诗都是可以的。而数据人员的任务是先把各个格式的数据对在一起，心中不免骂娘。

数据质量是个多维度的问题，抛开个人书写习惯和录入系统的限制，医疗本身的属性带来不少障碍。问题太多了，简单说两个，一个是缺失数据太多，可能是医院条件不允许，也可能是采用了“正常值缺省”策略（指标没写不是没测，而是正常）。一个医院的缺失值还好办，难办的是多个医院的数据“完美”缺失（你有a没b,我有b没a），导致有效数据很少。另一个是模糊结论，不管是读片还是病历都有这个问题。“考虑为a，不排除b”你说这种结论我该怎么认定。坦白讲模糊推理在整个ai都没有什么落地的实践。为了质控，我只能扔！其实数据质量深层次的原因是行业内部的标准化欠缺。这个问题一时半会很难搞，需要顶层设计。

2 行业认同主要包括结果的可解释性和权责分配。注意，这个可解释性不单指模型黑盒问题，还包括结果符合医学认知和已有文献，至少很多医生是这么理解的。例如使用svm判断病人是否可以复发，与医生沟通时就很麻烦，支撑向量，松弛变量基本概念是不可能讲明白的，最后“你能不能给我个权重或者决策树？”我。。。你看，这里边就有可解释问题，甚至是白盒模型的可解释问题。而更大的问题是很多时候结果并不符合医生预期，原因可能包括数据采样偏差，质控不好等，都需要很细致的和医生剥丝抽茧，甚至有的时候还要反复补数据。图像问题好很多，现在深度模型在医疗图像识别上基本上不存在可解释障碍，医生是接受的。

权责分配问题主要体现在医疗决策问题上的风险评估。当前的统计范式的机器学习适合处理常见问题，但是对疑难病症无能为力。很多大的pi和意见领袖非常在意出错那1-5%，这是一个非常难对付的问题，大概率要走规则。医生用模型决策，如果出错了算谁的。现在有医闹，以后还有“机闹”？某种程度上讲，做不到99.x%的准确性就不好谈。另外，基于循证医学的实践要求每一次推理都要有依据，敢问机器学习是否可以为每一次结论都清楚的给出依从的文献或案例？我个人觉得，在相当长的时间内，还应该以人作为权责主体，才有利于ai的推进。

如果说你问我，要不要入坑，得分场合。如果是读研究生，仅限于医疗影像，其他方向还是算了，如果进公司，需要考察数据获取能力，但是整个医疗ai都是不可能挣快钱的。

###

更新一下轻业务的医疗ai，主要指各种互联网医疗用户端应用。上边讨论的主要是和医院医生交互比较深入的医疗ai，业务属性比较重。现在也有一些业务属性比较轻的互联网医疗应用，例如导诊，知识工具等，不涉及实际治疗，属于治疗前的应用。这个有没有坑呢？根据一些行业研究报告的分析，分平台和工具讨论比较好。平台型产品关注患者导流，用户数据生成，连接诊断，药物，随访，药厂，保险等。坑只多不少，主要还是用户隐私。因为要实际变现的患者，需要精确定位。干这个就是在危险的边缘反复试探。好吧，撑死胆大的，饿死胆小的！工具型产品，目前基本以开放数据集，科研文献和百科知识为主，完全不涉及医院也是可能的。除了挂号，导诊，这种产品用户粘度一般不高，同质化严重。我告诉你得了什么病，你信吗，不找个医生看看？有人说，背后的原因是国内看病还是容易，用户觉得还是可以花钱再去医院确认一下。大病暂且不论，小病看病不容易的话，不信也得信。残酷了点。

###

更新一下关于大金主，药厂。其实做医疗ai，医院或者申报课题的钱都是小钱，做医疗器械的不懂，不敢下结论。目前做医疗大数据公司的大部分现金流都来自药厂。药厂的坑也是大的很。通常药厂的需求分两类，市场需求需要量，医学需求需要质。市场需求通常要看药物普及或者疾病分布，判断药物进入阶段，好去医院铺销售。这种量都是上百上千的医院，中小企业是搞不定的。医学问题通常关注治疗，必然需要随访数据。而随访数据简直是制约国内医学科研的行业瓶颈，不是质量不达标就是量不够。有些时候，技术公司的优势不是技术，而且有大量可以打电话的随访人员。而且药厂对数据的要求更加严格，他们的数据来源更多，可以交叉验证。而医院医生都是专科的，数据来源很单一，验证的效果差一些。另外，国民的医学生物数据现在上升到了国家安全的层面，任何向国外药企的不当数据披露都是不合法的。一些时候，和外企药厂对接很不如意。

###

再从历史的角度讲一下人工智能自身在医疗上的应用，以帮助大家更加系统的理解这个问题。早起符号主义的人工智能在医疗上的应用也是有的，叫专家系统，是一堆可以维护的规则集合。我导师的二十多年前工作就是关于中医某一种药物的用药系统。包括沃森的主要实现也在专家系统上。专家系统依赖专家，需要人工维护，迭代难，易出错，有不一致，这是大家接受的通病。但是这依然是当今医疗决策最需要，也是最容易接受的医疗ai形式。而现在的医疗ai主要是连接主义的范式或者说是机器学习的形式，需要大量的数据和算力来构建模型。所以准确的讲，现在医疗ai的坑多半是连接主义的坑。但是现在连接主义(深度学习)是大潮，填坑或者避坑的手段也不少。当我们说，人工智能或者机器学习在医疗上坑很大，到底是工具的问题还是领域的问题？我们的工具换了好几轮，但是依然有很多搞不定的问题。

没有人文关怀的医生像机器，不用领域知识的ai没灵魂。