第一章 数据
信件、电话和电子邮件内容、电视广播、互联网网页,以及各种社交产品中由用户产生的内容都称为数据。这些数据的共同特点是以文字和语音为载体。建立专门针对语音和文字的语料库称为语料库。
数据和信息稍有不同,它最大的作用在于承载信息,但是并非所有的数据都承载了有意义的信息。数据本身是人造物,因此它们可以被随意制造,甚至被伪造。没有信息的数据没有太大意义。
数据中隐藏的信息和知识是客观存在的,但是只有相关领域的人才能挖掘出来。
获取数据——>分析数据——>建立模型——>预测未知
数学模型:切比雪夫不等式表明一个随机变量(比如观察到的各个年龄段观众的比例)和它的数学期望(比如真实情况下所有看电影的观众中不同年龄段的比例)之间的误差可以任意小。只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型,这种方法被称为数据驱动方法。因为它是先有大量的数据,而不是预设的模型,然后用很多简单的模型去fit data 。
第二章 大数据和机器智能
在有大数据之前,计算机并不擅长与解决人类智能的问题,但是今天这个问题可以由智能问题变为数据问题。
图灵测试Turing test 让一台机器和一个人坐在幕后,让一个裁判同时与幕后的人和机器进行交流,如果这个裁判无法判断自己交流的对象是人还是机器,就说明这台机器有了和人同等的智能。实现图灵所说的智能
1、语音识别
2、机器翻译
3、文本的自动摘要或者写作
4、战胜人类的国际象棋冠军
5、自动回答问题
机器智能最重要的是能够解决人脑所能解决的问题,而不在于是否需要采用和人一样的方法。
贾里尼克的机器翻译步骤1、找到数学模型 2、用统计的方法训练出模型参数
李开复和洪小文一起构建了世界上第一个大词汇量、非特定人、连续语音识别系统。
大数据特征:三V 大量vast 多样性variety 及时性velocity
第三章 思维的革命
机械思维带来了工业大发明的时代。机械思维更广泛的影响力是作为一种准则指导人们的行为,其核心思想可以概括成确定性和因果关系。牛顿可以把所有天体运动的规律用几个定律讲清楚,并且应用到任何场合都是正确的,这就是确定性。类似的,当我们给物体施加一个外力时,他就获得一个加速度,而加速度的大小取决于外力和物体本身的质量,这是一种因果关系。
机械思维的局限性更多的来源于它否认不确定性和不可知性。爱因斯坦的名言:上帝不掷色子,这是他在和量子力学的发明人波尔等人争论时讲的话,今天我们知道,在这场争论中,波尔等人是正确的,上帝也掷色子。
香农提出信息论最初的目的只是建立通信 的科学理论,但是信息论的作用不止在科学和工程上——它也是一种全新的方法论。与机械思维是建立在一种确定性的基础上截然不同的是,信息论完全是建立在不确定性基础上,而想消除这种不确定性,就要引入信息。
因果关系转向接受强相关性。