机器学习竞赛实际上是一场数据竞赛

https://www.toutiao.com/a6638521684594786819/

 

希望使AI有别于其他公司的方法就是使用差异化的数据集,自己构建数据集是一个差异化方法之一。

随着机器学习 - 或人工智能 - 商业化的进行。 竞相同时定义和实现机器学习的公司惊讶地发现,实施用于使机器智能化的数据集或问题的算法很容易。 从谷歌TensorFlow的开源机器学习框架到微软的Azure机器学习和亚马逊的SageMaker,有一系列强大的即插即用解决方案可以轻松实现繁重的程序化提升。

然而,没有变得商品化的是数据。 相反,数据正在成为机器学习竞赛中的关键区分因素,这是因为适合的数据集并不常见。

实用数据:有价值和稀有

数据正在成为一种差异化因素,因为许多公司没有他们需要的数据。 虽然公司已经使用普遍接受的会计原则以系统的方式衡量了自己数十年,但这种衡量方法长期以来一直专注于物质和金融资产 - 事物和金钱。 2013年,诺贝尔奖甚至被授予资本资产定价,从而加强了这些公认的优先事项。

但今天最有价值的公司在软件和网络上进行交易,而不仅仅是实物和资本资产。 在过去40年中,资产重点已完全翻转,从1975年有形资产占83%的市场到2015年无形资产的84%。今天的企业巨头不再制造咖啡壶和销售洗衣机,而是提供应用并联系人们。 这种转变造成了我们衡量和实际推动价值之间的巨大不匹配。

结果是有用的数据很少见。市场和账面价值之间的差距越来越大。由于这种差距,公司正在竞相将机器学习应用于重要的业务决策,甚至取代他们的一些昂贵的顾问,只是意识到他们所需的数据甚至还不存在。实质上,把想象中的新AI系统将新技术应用于相同的旧业务。

就像人一样,机器学习系统在只有在人们训练他后,才能变得聪明。为了获得智能,机器需要比人类更多的数据 - 尽管如此,他们确实能够更快地读取数据。因此,虽然随着公司引进机器学习并启动人工智能计划,会出现明显的军备竞赛,但也存在针对新数据和不同数据的幕后恐慌。

例如,在金融领域,替代数据超出了传统的证券交易委员会报告和影响投资决策的投资者报告。其他数据,例如社交媒体情绪或授予的专利数量,对于以上两个报告也是至关重要。首先,传统数据侧重于传统资产,而在无形资产时代则不够广泛。其次,没有理由使用机器学习来研究市场上其他人正在分析的相同数据集。每个感兴趣的人都已经尝试将行业趋势,利润率,增长率,利息和税前收益,资产周转率和资产回报率联系起来 - 以及1000多个其他常见报告的股东回报变量。

寻找其他人拥有的相同材料组之间的联系并不能帮助公司获胜。相反,想要使用人工智能作为差异化因素的公司必须找到新数据集之间的关系 - 他们可能必须创建自己的数据集来衡量无形资产

仔细考虑:你想知道什么?

数据创建比简单地聚合销售点或客户信息并将其转储到数据库中更复杂:大多数组织错误地认为,权宜之计涉及收集每一块可能的数据,并精心梳理所有数据,希望找到一丝洞察力 - 预测或分类他们关心的东西的难以捉摸的特征。

虽然机器学习偶尔会让我们惊讶,但没人能搞清楚它的细节,以及让它保持结果的一,但这并不意味着不靠谱。这意味着我们必须明智地应用它。这说起来容易做起难:例如,在我们对替代数据市场的研究中,我们发现超过一半的新数据提供商仍然专注于衡量实物和金融资产。

许多公司省略的步骤是创建一个关于重要事项的假设。机器学习真正擅长的地方在于洞察人类所拥有的洞察力 - 一种基于经验法则,广泛认知或理解不足的关系 - 以及开发更快,更好理解,更具可扩展性(且不易出错)的方法来应用洞察力。

为了以这种方式使用机器学习,您不会在任何相关字段中为每个已知数据点提供系统。你给它提供了一套精心策划的知识,希望它可以学习,也许可以在边缘扩展人们已有的知识。

富有洞察力的机器学习来自不同的数据

以下三点是对所有希望创建有影响力和有价值的机器学习系统公司的建议:

1、差异化数据是AI成功的关键。您不希望在和竞争对手相同的数据集上进行训练。在内部查看并确定您的组织唯一了解和理解的内容,并使用这些见解创建独特的数据集。机器学习应用程序确实需要大量数据点,但这并不意味着模型必须考虑广泛的功能。将您的数据工作集中在您的公司已经与众不同的地方。

2、有意义的数据优于综合数据。您可能拥有关于某个主题的丰富详细数据,这些数据并不是非常有用。如果您的公司不会使用该信息来帮助临时决策,那么从机器学习的角度来看,这些数据可能不会有价值。专业的机器学习架构师会问你关于哪些领域真正重要的棘手问题,以及这些领域如何对你所获得的见解的应用产生影响。如果这些问题很难回答,那么你就没有考虑产生实际价值所需的想法了。

3、你知道的应该是起点。最好地利用机器学习的公司首先要了解对于他们做出重要决策最重要的事情。这将指导他们了解要收集哪些数据,以及使用哪些技术。一个容易开始的地方是扩展和发展您的团队已有的知识,这可以为组织创造更多价值。

很明显,软件已经吞噬了世界(软件企业家Marc Andreessen创造的一句话)。 但它仍然很饿! 软件需要稳定的新数据和新技术相结合,以继续增加价值。

您不希望被洞察力,机器和数据集的这种转变所遗忘。 从内部开始,以确定您可以生成的独特视角和有价值的数据集。 通过这些步骤,您将发现相关的创新思路,以保持您的组织的竞争力。

发布了416 篇原创文章 · 获赞 671 · 访问量 135万+
展开阅读全文

没有更多推荐了,返回首页

©️2019 CSDN 皮肤主题: 大白 设计师: CSDN官方博客

分享到微信朋友圈

×

扫一扫,手机浏览