第四范式高维机器学习：找勒索病毒，查空气质量，估企业风险-CSDN博客

本文链接：https://blog.csdn.net/weixin_39640818/article/details/98567401

640?wx_fmt=jpeg

原创：谭婧

一朵花，在诗人眼里是风雨兼程的铿锵玫瑰，在人工智能科学家眼中则非常不同。他们将玫瑰花的数据集分为4个维度的特征，花瓣宽度、花瓣长度、萼片长度、萼片宽度。

虽然无论是什么视角，都不影响人类欣赏自然之美。但是，要再进一步解释，4个特征的数据是低维度数据，它只能描绘出玫瑰的大致形象。而人工智能技术是让人类有能力处理更复杂信息与数据，这些数据中可能包含成千上万个特征。

这些是高维特征，能更细致的刻画出事物真实的一面。

表面是一高一低，本质是数据中蕴藏的巨大价值在等待被挖掘。数据是抽象的，但是数据中的价值却是实实在在的：危险与安全、清洁与污染、风险与损失。第四范式政府与公共事业创新部的樊志英女士讲了三个机器学习的小case，可以让人更深刻地理解数据的价值。它们都是政府为民众提供的便捷服务，即“为人民服务”。

大数据的概念已经深入人心，这次从政务云和政务大数据讲起。

这类大数据的出现可以让办公大楼里的盖章、流程、表格和排队越来越少，也可以让政府决策更准确，总之都是更好地使用公共资源。于是乎，海量的传感器的数据、物联网的数据，政府业务的数据，无声汇聚。

640?wx_fmt=jpeg

汇聚了这么多的数据，有没有什么技术能够从海量的数据里面去挖掘隐藏的规律，进而能够帮助政府机构实现服务和效率的变革？

有，人工智能的机器学习技术。说到底，机器学习已经在帮助政府机构解决一些业务问题。

而当各方技术风起云涌，对政府机构来说，如何选择合适的机器学习技术成为新的挑战。

640?wx_fmt=png

网络安全的监管部门需要应对各种各样恶意代码。在2018年的时候，监管部门至少发现了十几万个勒索的病毒，病毒数量会逐年上升。那么监管部门怎么去实现恶意代码的检测呢？

樊志英介绍，监管部门集成了大概十个左右的判别子引擎。每一个样本都会经过判别的引擎做静态分析。分析完成之后，如果被认为有可疑代码，那么就会抛到沙箱里面去做动态行为的监控，再生成动态分析的数据。最后把静态数据和动态数据进行分析，提炼抽象的规则，这些规则可以返回到判别的子引擎中，或者后期再做人工的分析，形成一些经验。理论上，判别引擎集成的越多，恶意代码越难遁地。

但判别子引擎越多，计算资源消耗量会非常大。而且从时间上来说，系统无法支持同时跑几十个引擎。

此外，即使集成了多个引擎，实际上还有可能漏掉很多的恶意代码，误判和漏判的问题没有解决。我们借助高维机器学习技术来尝试解决问题。

第四范式把这个问题交给人和机器一块去做，人承担的工作是什么？

先从几十张基础的数据表里面提取几十维的基础特征，然后把这个基础的特征丢到第四范式先知平台里面去。通过特征变换拼接组合，再经过特征重要性的筛选，最终机器生成了几十万维的高维特征。

接着，把样本、静态分析数据和动态分析数据丢给机器进行学习。简单地说，机器的学习过程就是在调整算法的参数和特征的权重。机器大概学习了100万条数据的规律。这个时候一个基线的模型已经产生了，然后就可以去对这个模型做验证。把十多个判别引擎认为是非勒索病毒的样本，让模型去识别，对识别结果做排序，再由人工去验证头部的结果。经过验证后会发现，在这些头部的数据里面，又发现了70%的样本是勒索病毒。

这里面为什么会存在这样的问题？我们来分析一下，传统的判定引擎是怎么做的？以前的判定引擎更多的是特征码的方式，或者是启发式搜索的方式。特征码主要是从已知威胁里面去提取，因此它只能去识别已有的威胁，难以发现未知的威胁。而启发式搜索是集成了网络安全专家的经验，把经验变成规则。规则不可能穷尽。因此传统的判别引擎特长是抓大放小，可能会把头部的很多的数据抓出来。但是，很可惜，很多尾部的数据都漏掉了或者误判了。

藏在尾部数据中的勒索病毒正在窃喜，但是笑到最后，才能笑得最好。

640?wx_fmt=jpeg

基于高维机器学习的这种方式，第四范式首先从一百多万条的样本里学习，最高的可以达到万亿级别的特征维度。这样的话，每一条样本的每一个ID、每一个字段或者是一个组合的字段都成为唯一的特征。经过高维机器学习模型的判别之后，机器就能够发现原来规则没有覆盖的，更精细的恶意代码的规律。这样才会发现之前没有找到的勒索病毒。

魔高一尺，道高一丈。

网络安全场景里面有很多的恶意代码的种类，需要模型和恶意代码反复切磋。切磋就需要时间，负责网络安全监管部门原来做这样一个网络安全的识别模型，大概需要三个月的时间。基于第四范式先知平台，从数据的引入到特征工程，再到高维模型的构建与模型的预测，这个时间是25天。

640?wx_fmt=png

生态环境领域需要对大气污染物的浓度进行预测。预测的越准越好，越快越好，微软亚洲研究院2015年有论文提出，为不同地点的空气质量之间的空间相关性建模。利用与时间相关的特征（如交通流量和气象），为空气质量的时间依赖性建模。根据IBM官网介绍，基于其数据同化和认知建模的独有技术，开发了一个综合的空气质量管理解决方案，包括高分辨率空气质量预测、排放源识别和追溯，以及定量的政策决策支持。

640?wx_fmt=jpeg

在大气污染物防治的实战中，第四范式发挥了高维机器学习的“威力”和一套实用的方法。

大气污染物防治从四个环节入手，

第一个，找到污染。
第二个，分析污染（分析研算）。
第三个，基于监测的数据去做一个决策。
第四个，对结果去做评估，最终要实现对大气质量的考核。

在找污染的环节里面，老规矩，先采集数据。近几年来，采集数据的手段用到了各种智能设备，所以有了遥感的图像，无人机短时视频，高空摄像头采集的视频。人眼可以观察定期或者是一个小区域的视频数据。但是传感器的数据源源不断地收集上来很难处理。这些采集到的数据只能用来做监测，分析在这时很受限制，有劲使不出来。当问到“需要采取哪种干预决策来化解污染的时候”，环保机构还要通过专家去肉眼观察图片，或者观看实时的监测结果。

640?wx_fmt=jpeg

如果在第二步的研算阶段就可以拿数据展开分析，为后面的决策提供依据，那么也可以比喻为“抄近道”。想法很好，但是没有机器学习技术的支持很难做到。

基于传统机器学习方式，或者专家规则和统计分析方式的模型，误差的范围很大。比如PM10这个指标，大概预测范围是53到105。对政府环保部门来说，不同污染程度的处置手段有所不同，这个预测范围区间没有办法对政府的决策给与支持。这就好比预测一个学生的高考成绩从200分到700分都有可能。这种预测对报考学校、挑选专业毫无意义。

尝试使用机器学习平台和高维机器学习技术去解决这些问题。为了实现精细化的监控，环保部门一般情况下都会将管理区域划分为多个网格，网格的区域里面可能会有省控的点、国控的点，更多的还会有很多的微站点，每个微站点都会去采集包括PM2.5、 PM10颗粒物和SO2、CO等有害气体的浓度，以及采集气象数据。

如果说想要做到精细化，最好的方式是对每个站点或者是每一类站点的每一种污染物都能预测一个遍。但是，这个实际问题转化成技术问题就是——预测任务从一块区域，变成了N个站点里的N个污染物。

640?wx_fmt=jpeg

工作量有点大，这种时候需要快速的、规模化的建模。用几十个甚至几百个个性化的模型去解决问题。第四范式使用先知平台去解决这个问题。提取通用特征，再把每个监测点的数据去输入到先知平台里面去，快速构建规模化的模型。

樊志英以第四范式做的基线模型举例：“我们也做了一个比较，一个是准确性的指标，一个是平均绝对误差。对北京市某站点三个小时的PM2.5去做一个预测。可以看到从总体的趋势上来看，基本上高维机器学习的模型能够很好的去跟真实的值很好的吻合，同时也看到最大误差实际上没有超过10。那么基于先知平台，就可以去做一些规模化的，有小些微的差别的模型的构建。可以做到按照小时级别的污染物浓度的一个预测。” 640?wx_fmt=png

政府对企业的风险的评估，大多使用结构化的数据，比如说企业在政府备案的年检信息、网络上采集的舆论信息、企业专利的信息等等。这些信息可能是过去做企业的风险评估的重要项。然而，第四范式将企业的知识图谱数据引入后，效果会不一样。原因是，结构化数据关注企业自身的一些信息和数据。把企业知识图谱的数据引进来，视角更广，可以观察企业间的关系了。人们关心：其他企业的人员会对我的企业造成什么影响？

640?wx_fmt=jpeg