《智能时代》吴军 (一)

第一章 数据

信件、电话和电子邮件内容、电视广播、互联网网页,以及各种社交产品中由用户产生的内容都称为数据。这些数据的共同特点是以文字和语音为载体。建立专门针对语音和文字的语料库称为语料库。

数据和信息稍有不同,它最大的作用在于承载信息,但是并非所有的数据都承载了有意义的信息。数据本身是人造物,因此它们可以被随意制造,甚至被伪造。没有信息的数据没有太大意义。

数据中隐藏的信息和知识是客观存在的,但是只有相关领域的人才能挖掘出来。

     获取数据——>分析数据——>建立模型——>预测未知

数学模型:切比雪夫不等式表明一个随机变量(比如观察到的各个年龄段观众的比例)和它的数学期望(比如真实情况下所有看电影的观众中不同年龄段的比例)之间的误差可以任意小。只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型,这种方法被称为数据驱动方法。因为它是先有大量的数据,而不是预设的模型,然后用很多简单的模型去fit data 。

 

第二章 大数据和机器智能

在有大数据之前,计算机并不擅长与解决人类智能的问题,但是今天这个问题可以由智能问题变为数据问题。

图灵测试Turing test 让一台机器和一个人坐在幕后,让一个裁判同时与幕后的人和机器进行交流,如果这个裁判无法判断自己交流的对象是人还是机器,就说明这台机器有了和人同等的智能。实现图灵所说的智能

  1、语音识别

  2、机器翻译

  3、文本的自动摘要或者写作

  4、战胜人类的国际象棋冠军

  5、自动回答问题

机器智能最重要的是能够解决人脑所能解决的问题,而不在于是否需要采用和人一样的方法。

贾里尼克的机器翻译步骤1、找到数学模型 2、用统计的方法训练出模型参数

李开复和洪小文一起构建了世界上第一个大词汇量、非特定人、连续语音识别系统。

大数据特征:三V 大量vast 多样性variety 及时性velocity

 

第三章 思维的革命

机械思维带来了工业大发明的时代。机械思维更广泛的影响力是作为一种准则指导人们的行为,其核心思想可以概括成确定性和因果关系。牛顿可以把所有天体运动的规律用几个定律讲清楚,并且应用到任何场合都是正确的,这就是确定性。类似的,当我们给物体施加一个外力时,他就获得一个加速度,而加速度的大小取决于外力和物体本身的质量,这是一种因果关系。

机械思维的局限性更多的来源于它否认不确定性和不可知性。爱因斯坦的名言:上帝不掷色子,这是他在和量子力学的发明人波尔等人争论时讲的话,今天我们知道,在这场争论中,波尔等人是正确的,上帝也掷色子。

香农提出信息论最初的目的只是建立通信 的科学理论,但是信息论的作用不止在科学和工程上——它也是一种全新的方法论。与机械思维是建立在一种确定性的基础上截然不同的是,信息论完全是建立在不确定性基础上,而想消除这种不确定性,就要引入信息。

因果关系转向接受强相关性。

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值