读人工不智能:计算机如何误解世界笔记06_机器学习

1.       技术世界

1.1.         为了创造一个更加公正的技术世界,我们在创造技术的时候,需要接受更多不同的声音

1.2.         在计算机科学中,很难说清楚‘简单’和‘几乎不可能’的区别

1.3.         谈论计算太难了,这导致了很多误解

1.3.1.           计算机在某些方面表现得非常优秀,而在另外一些方面表现得非常糟糕

1.3.2.           当人们误判计算机在执行任务时的参与程度时,社会问题就会产生

1.4.         蹒跚学步的孩子一般可以在不踩到玩具的情况下在房间内行走(当然,她可能会偏不这样干),但机器人做不到

1.5.         使用机器人也有一些可预见的缺陷,那些拥有扫地机器人和宠物的人已经率先发现了

1.5.1.           如果你知道你的狗可能会把家里弄得一团糟,那就别安排你的扫地机在无人看管的情况下工作

1.5.2.           家里有小动物,什么事情都有可能发生

1.6.         计算文化中存在的沟通问题,就有一部分是由日常语言的不精确性和数学语言的精确性所致

1.6.1.           在数学中,一切语言都是高度精确的

1.6.2.           在生物学中,“cell”(细胞)的得名是由于罗伯特·胡克在1665年发现细胞的时候,想起了修道院中僧侣们居住的单人房(cell)的墙壁

1.6.3.           Web开发框架Django,是以其发明者最喜欢的爵士吉他手金格·莱恩哈特(Django Reinhardt)的名字命名的

1.7.         机器学习隐含着计算机有自主权的意味,并且由于它能“学习”,因此具有某种程度的感知能力

1.7.1.           “学习”这个词通常适用于诸如人类这种有感知能力的生命体(或有部分感知能力的动物)

1.7.2.           意味着机器可以在它已预编程好的、常规的、自动化的任务中得到改进

1.7.3.           尽管“学习”有某种隐含的意味,但不代表机器就能获得知识、智慧或者自主选择权

1.8.         想象力也让事情变得更加复杂

1.8.1.           如何定义人工智能,取决于你对未来的信念

1.8.2.           我们没有任何理由相信奇点即将到来。你可以想象未来的样子,但你的想象不能佐证你对未来可能性的预测

1.9.         但凡是理智的聪明人,对未来会发生什么是无法达成共识的

1.9.1.           部分原因是没有人能看到未来

1.10.     在增量学习模式下,算法会随新数据的到来而持续改进

1.11.     不平等是不公平的,但并不罕见

1.11.1.      如果机器学习模型只是简单地复制实际的世界,那我们就无法走向一个更加公正的社会

2.       机器学习

2.1.         “机器学习”实在太新了,共识太少,所以语言学的定义没能跟上现实也就不足为奇了

2.2.         1959年,“机器学习”这个术语被《牛津英语词典》收录

2.3.         1959年 《IBM公司研究与开发杂志》(IBM Journal)卷3,我们的计算机具有足够的数据处理能力和计算速度,可以好好利用机器学习技术

2.4.         在2000年出版的第三版中,《牛津英语词典》开始将“机器学习”视作短语

2.4.1.           机器学习(machine learning)名词(计),计算机从经验中学习的能力,是一种基于新采集的信息改进算法的能力

2.5.         机器学习是学习一个数据集的一些属性,并将它们应用到新数据上。因此,在机器学习中,评估一个算法的常见做法是将数据分成两组:一组为训练集,用以学习数据属性;另一组为测试集,用以检测数据属性

2.6.         所谓机器“学习”,并不意味着机器有一个由金属制成的大脑,而是指机器根据人类定义的衡量指标,在执行单个特定任务时更加准确

2.6.1.           这种学习并不等同于智力

2.7.         类型

2.7.1.           监督学习

2.7.1.1.            计算机被“教师”给定一组示例的输入数据和所需的输出数据,目的是通过将输入数据映射到输出数据,习得一般规则

2.7.2.           无监督学习

2.7.2.1.            给学习算法输入的数据不带标签,使其自行在数据中发现结构
2.7.2.2.            无监督学习的目的可以是无监督学习本身(发现数据中的隐藏模式)或者通过无监督学习达到其他目的(特征学习)

2.7.3.           强化学习

2.7.3.1.            计算机程序在一个动态环境中执行某个动作,并与环境发生交互
2.7.3.1.1.             如驾驶车辆,或与对手玩游戏
2.7.3.2.            程序会在试探它的问题空间时收到环境返回的奖励和惩罚方面的反馈

2.8.         训练数据

2.8.1.           训练数据是用于训练和调整机器学习模型的已知数据集

2.8.2.           三种机器学习都依赖于训练数据

2.8.3.           机器学习算法可被应用于已知数据集

2.8.3.1.            随机森林、决策树、最近邻、朴素贝叶斯或隐藏式马尔可夫等
2.8.3.2.            算法是计算机执行任务需要遵循的一系列步骤或过程

2.8.4.           网上的资源库收录了很多有意思的数据集,可用于机器学习实践

2.8.4.1.            面部表情数据集
2.8.4.2.            宠物数据集
2.8.4.3.            YouTube视频数据集

2.8.5.           为数不多的标志性数据集被发布到网络上,成为当代所有人工智能的基石

3.       计算机拥有智力?

3.1.         国际象棋不是对智力进行的测试,它只测试一种技能

3.1.1.           下象棋的技能

3.2.         象棋代表智力其实基于一种错误的文化前提

3.2.1.           认为优秀的棋手头脑聪明,比周围的人更有天赋

3.3.         许多聪明的人擅长国际象棋,但国际象棋或任何单一的技能并不代表智力

4.       泰坦尼克号

4.1.         可得性启发法

4.1.1.           首先浮现在脑海里的情景通常是我们认为最重要或最常发生的故事

4.2.         在一个不平等的世界里,如果我们根据世界的实际情况来制定定价算法,那么女性、穷人和少数族裔客户就会不可避免地被收取更多的费用

4.2.1.           种族、性别和阶级会以各种明显和不正当的方式影响商品的定价

4.2.2.           贫穷往往意味着要为日常必需品支付更高的费用

4.2.3.           使用分期付款计划购买家具,总价格比直接购买要高

4.2.4.           发薪日贷款的利率远远高于银行贷款利率

4.2.5.           贫穷的租户经常被迫为住房支付更多费用

4.3.         Pclass代表乘客的社会经济阶层,这可能是一个有用的预测指标

4.4.         票价是“泰坦尼克号”幸存者数据的数学分析中最具影响力的因素

4.4.1.           这不是什么值得害怕的事,也并不会引领我们堕入全球被超智能计算机统治的境地

4.5.         得出支付更高票价的乘客更有可能在海难中幸存这一结论,是非常不明智的

4.5.1.           支付高票价的人要比支付低票价的人富有,这使我们可以向富人收取较低的保险费

4.5.2.           保险的重点就在于让风险在大量人群中平均分配

4.5.3.           可以为保险公司赚更多钱,但推销出去的不是最好的产品

4.5.4.           从保险业到旅游业,价格优化无处不在

4.5.5.           价格优化常常造成价格歧视

4.5.5.1.            Homedepot.com和旅游网站会依据用户浏览网站时使用的是手机还是电脑,分别显示不同的价格

4.6.         性别也是一个可供合理推算的预测指标

4.7.         “妇女和儿童优先”是海难逃生的常用原则

4.7.1.           这条原则可以追溯到1852年英国皇家海军舰艇“伯肯黑德”在南非海岸搁浅的事故

4.7.2.           这不是一条放之四海而皆准的原则,但它的有效频次用于社会分析是足够的

4.8.         船长下了命令:“让妇女和儿童上船,然后把小艇放下。”

4.8.1.           在右舷的大副默多克认为,船长让妇女和儿童优先上救生艇

4.8.2.           在左舷的二副莱特勒认为,船长只允许妇女和儿童上救生艇

4.8.3.           关键在于两名副官,而不是救生艇的编号

4.8.3.1.            虚假因果关系的问题

4.9.         弃船逃生的方法

4.9.1.           塞耶尽他所能跳到远离船身的地方

4.9.1.1.            塞耶活了下来

4.9.2.           朗则跳到了船身近处的海里

4.9.2.1.            朗被吸入了无底的深渊

4.9.3.           计算机的预测仅仅基于票价等级、年龄和性别,但实际的关键因素是他们最后那一跳的差异

4.10.     朗遇难的随机性,正是造成我们对“泰坦尼克号”乘客幸存情况的统计预测不可能达到100%准确的原因

4.10.1.      因为人类不是统计数据,也永远不会是统计数据

4.11.     不是所有重要的东西都能被计算在内

4.11.1.      计算机无法从数据集中跳脱出来,并且找到可能重要的额外因素,但是人类可以

5.       数据的不合理有效性原则

5.1.         除非你处处留心可能出现的偏差和无序,否则人工智能就只是表面看起来那样利落

5.2.         尤金·维格纳在文章《数学在自然科学中不合理的有效性》中探讨了为什么那么多物理学规律可以使用如此简单的数学公式(如f=ma或e=mc2)来巧妙地表达

5.3.         涉及人类的科学被证实,比起涉及基本粒子的科学,它们对精简优雅的数学更具抵抗力

5.4.         这种数据驱动的方法会让机器忽略许多人类认为非常重要的因素

5.4.1.           以数据为驱动所做的决策,很少有完全符合复杂规则的

5.5.         计算机能在足够的时间内正确处理足够多的事情,以至于我们可能会倾向于认为它基本上是正确的

5.5.1.           但它也有可能因错误的原因而得到正确的结果

5.6.         社会问题的决策不仅仅是计算,因此如果我们仅使用数据来做涉及社会和价值判断的决策,社会问题就会随之而来

5.7.         有些事情是机器永远也学不会的,而人类的判断、强化和解释永远都是有必要的

5.8.         我们的大脑总会把真实的事件和虚构的写实小说混淆在一起

5.8.1.           这种混淆使得我们对风险的理解更加复杂

5.9.         大数据世界里有一个公开的秘密:所有的数据都是脏数据,无一例外

5.9.1.           数据是由人们四处走动和计算,或是人类制造的传感器收集来的东西

5.9.2.           在所有看似有序的数字序列中,都有噪声数据的存在

  • 22
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值