10个2017的预测：数据科学、机器学习和物联网-CSDN博客

近日， Vincent Granville在Data Science Central上撰文对2017的数据科学、机器学习和物联网进行了预测。

以下为译文

又到了分享对2017年的预言的时候了,这里抛砖引玉，也希望各位发表自己的观点。

1. 数据科学和机器学习将变得更为主流，特别在以下领域：能源业、金融业（银行、保险）、农业（精耕）、运输业、城市规划、医疗保健（定制治疗），甚至是政府方面。

2. 某些数据科学的门外汉想要创建合法的，有关如何分析数据、算法怎样运转的体系，并打算强制公开算法的秘诀。我相信他们会失败的，奥巴马医改就是一个例子，其中利用的预测算法，忽略了年龄性别来计算溢价，导致了人们需要承担更高的保费。

3. 传感数据崛起。也就是说，物联网将带来数据膨胀，但数据质量、数据相关性及数据安全仍是至关重要的。

4. 随着物联网的崛起，依赖于人工智能、深度学习和自动数据科学的机器或设备间通信的算法，更多的过程将实现自动化（如驾驶、医疗诊断和治疗）。我最近也在编写文章来描述机器学习、物联网、人工智能、深度学习和数据科学之间的差异。你可以在DSC进行注册，防止错过该文。

5. 人工智能、物联网、数据科学、机器学习、深度学习和运筹学之间的界限将变得模糊。而统计工程会越来越多地出现在应用程序、机器学习、人工智能和数据科学领域。

6. 许多系统仍然无法正常运转。其解决方法在于人而不是算法。我的文章《为何如此多的机器学习实现都以失败告终》中有提及，一个典型的例子就是“谷歌分析”。谷歌分析不能捕捉到大量明显且又基本的机械交通流，而这种任务对于人来说，根本不需要任何统计和数据科学知识来过滤或拦截。虽然人们发明了基本的方案来解决这些问题，但它却有增无减。虚假评论、新闻，推特上未检测出的仇恨言论，谷歌搜索上未检测到的剽窃行为，都属于同一类别。最终，它为新玩家留下了可以进入和构建实际工作系统的空间。

7. 对公共数据和公共新闻的依赖将会面临更仔细的审查。有人说预测选举的失败是数据科学的失败。但在我看来这是一种不同类型的失败，它未能意识到媒体的偏见（他们发布的都符合他们自身议程预测），甚至那些做调查的都是有偏差的（充满谎言）。同时它也没有意识到选举中的高波动性以及日常的巨大变化。任何能够计算出包含历史数据的良好的置信区间的人，都认为这是不可靠的预测结果。最后，我一直都认为获胜者最擅长玩把戏，包括操纵黑客与贿赂媒体。

8. 越来越多的数据清理、预处理和探索性数据分析将变得自动化，我们也将面对更多的非结构化数据，当然，也会用一些方法来使它们变得结构化。多个算法和模型逐渐混合在一起，来提供效果最好的模式识别和预测系统，以提高精度。

9. 在领先的从业者带领的大学课程的引导下，数据科学教育将不断发展，通过数据科学营找工作的人会更少。许多这种类型的训练营不会培训你成为数据科学家，而是让你变成一个只知晓经典的、基本的、甚至过时且危险的统计知识的Python/R/SQL码农。因此，数据营不得不改善，否则将冒成为另一种凤凰城大学的风险。

10. 对有关数据的基础建设的攻击将会从窃取或清除转变为修改数据。如果安全漏洞没有被修缮，某些攻击将从物联网设备开始。

原文链接：10 Data Science, Machine Learning and IoT Predictions for 2017