数据与人工智能
过去与现在的人工智能
20世纪70年代,人类开始走上了机器智能的另一条道路,即利用数据训练机器的方法。
过去,科学家们所研究的机器智能,有相当一部分是模仿人类的学习方法,即通过规则比如说语法来提升识别的准确率。
但是数据训练有区别于传统的方法,数据训练是利用数据来提高机器模型的精度。
最早开创者
贾里尼克在IBM做学术休假时负责起了开发“聪明的计算机”的项目,选择了识别语音作为他的任务。他的团队花了四年的时间,做出了一个基于统计方法的语音识别,准确率高达90%,规模也达到了两万多词。
贾里尼克和他的同事无意中开创的方法依然被现在所沿用。因为这种方法需要大量的数据,所以又被称为数据驱动方法。
大数据与人工智能
使用大数据的成果
2005年,由NIST(美国国家标准与技术研究院,National Institute of Standards and Technology)主持的机器翻译测评和交流中,第一次参加的Google团队取得了阿拉伯到英语领先5%,中文到英语17%的好成绩。
很大程度上,Google所取得的好成绩依赖于它的数据量。因为Google使用了比其他研究所多几千倍甚至上万倍的数据,导致能训练出一个更为准确的模型。
何为大数据
大数据最明显的特征就是体量很大。但是除此之外,还有很多其他特征,最明显的特征就是:有用。就好比说一本书包括纸的厚度都是一种信息,但是对于我们来说,只有里面的内容才是有用信息。
但是有一点需要明确,有用是否并不能简单断定,就好比仍然是一本书,文字是对读者有用的信息,而重量是对运输人员有用的信息。不同的模型需要的数据可能是不一样的,这时候数据的分类与整理就显得尤为重要了。
深蓝与AlphaGo
IBM深蓝
1996年2月10日,IBM超级计算机深蓝与当时的国际象棋冠军卡斯帕罗夫进行六番棋比赛,以1.5:3.5惜败。
1997年5月11日,深蓝卷土从来,在仅仅一年的时间里。深蓝以3.5比2.5打败了卡斯帕罗夫。
事实上,深蓝是利用了以往所有卡斯帕罗夫的棋盘数据建立了模型,从而走出对自己最有利的一步。而一年的升级,不仅提升了计算速度,还找来了其他大师的棋谱,来进行学习。
AlphaGo
AlphaGo结合了数百万围棋专家的棋谱,以及监督学习进行了自我训练。
AlphaGoZero
AlphaGoZero的能力则在AlphaGo的基础上有了质的飞跃。最大的区别是,它不再需要人类的数据。也就是说,它一开始就是与自身对弈。这样做的好处就是数据量更加庞大了,而且更加全面了。