吴恩达《AI for everyone》第一周

有风南来

于 2024-12-16 23:50:17 发布

阅读量1.3k

点赞数 8

分类专栏： AI 文章标签：人工智能吴恩达 AI AI for everyone

本文链接：https://blog.csdn.net/qq_37292005/article/details/144520617

版权

AI 专栏收录该内容

1 篇文章

订阅专栏

一．吴恩达《AI for everyone》第一周

（一）介绍

课程介绍：
- 课程名称：吴恩达《AI for everyone》给所有人的AI课
- 课程目的：帮助非技术人员理解人工智能，并在组织中有效应用AI技术。
课程内容：
- 人工智能术语：解释了神经网络、机器学习、深度学习和数据科学等常见术语。
- 人工智能能做什么和不能做什么：讨论了AI的能力和局限。
  - ANI（狭义人工智能）：也称为弱人工智能，只能完成特定某一方面的任务，如智能音箱、自动驾驶汽车等。目前AI所取得的重要进展全部是在ANI领域。
  - AGI（通用人工智能）：目标是构建能够完成任何人类能做任务的AI，可能还包括超出人类能力的超级智能。目前AGI所取得的进步十分微小，需要很长时间的努力。
- 发现AI应用机会：如何在组织中发现将人工智能应用于问题的机会。
- 构建机器学习和数据科学项目的实际体验。
- 如何与人工智能团队合作，并在公司制定人工智能战略。
- 围绕人工智能的伦理和社会讨论。

（二）机器学习

机器学习概述
- 机器学习的崛起主要归因于监督学习。
- 监督学习通过学习输入到输出的映射关系来工作。
- 机器学习在多个领域有广泛应用，如垃圾邮件过滤、语音识别、机器翻译和在线广告等。
监督学习（Supervised Learning）的优势
- 监督学习在数据量充足的情况下，性能提升显著。
- 神经网络和深度学习的兴起使得监督学习性能大幅提升。
- 大量数据和大规模神经网络的训练是获得高性能的关键。
数据在机器学习中的作用
- 数据是机器学习系统的关键，更多数据通常意味着更好性能。
- 训练大规模神经网络需要大量的数据和强大的计算能力。
- GPU等专用处理器的普及使得训练大规模神经网络成为可能。

（三）数据是什么

数据的重要性
- 数据对于构建AI系统至关重要，但数据的具体定义和用途取决于业务需求。
- 数据集可以是一个表格，包含输入和输出，如房屋大小和价格。
- 数据的收集方式：包括手动标注（Manual labeling）、观察用户行为（From observing user behaviors）、从网站下载或从合作伙伴处获取（Download from websites / partnerships）。
数据的常见误区
- 误区一：等待完美数据集的构建。实际上，应该早期收集数据并反馈给AI团队，以便指导IT基础设施的建设。
- 误区二：过度投资数据收集。仅仅拥有大量数据并不足以保证AI团队能够创造价值，需要AI团队的参与来指导数据收集和处理。
- 误区三：忽视数据质量问题。不准确、缺失或重复的数据会导致AI模型学习到不准确的信息，因此需要清理和预处理数据。
数据的类型
- 数据可以分为结构化数据和非结构化数据。
- 结构化数据存储在大型表格中，如数据库和电子表格。非结构化数据包括图像、音频和文本，人类容易解读但需要特定的AI技术来处理。
- 处理结构化数据和非结构化数据的技术有所不同，但都可以有效地应用于这两种类型的数据。

（四）人工智能术语

机器学习应用示例
- 使用房屋数据集作为示例，包括房屋大小、卧室数量、装修情况及价格。
- 机器学习系统可以从这些输入数据中学习并输出房屋价格。
数据科学项目示例
- 数据科学项目通过分析数据集来获取洞察。
- 例如，分析数据显示三卧室房屋比两卧室房屋价格更高，新装修房屋有15%的溢价。
- 这些洞察可以帮助企业决策，如选择房屋类型和是否进行装修投资。
机器学习与数据科学的区别
- 机器学习侧重于训练软件系统，从数据中学习输入到输出的映射关系。
- 数据科学则侧重于从数据中提取知识和洞察，输出通常为报告或演示文稿。
- 两者之间的界限有些模糊，且术语使用不一致。
深度学习与神经网络
- 深度学习是机器学习的一种有效技术，尤其适用于监督学习。
- 神经网络或深度神经网络模拟人脑神经元的结构和工作方式。这种网络通过大量的数学计算来处理输入数据并输出结果。

（五）是什么造就了人工智能公司？

公司如何擅长AI
- 一个公司要擅长AI，关键在于是否能够充分利用AI技术。
- 成为AI公司的关键在于做AI擅长的事情，如战略数据获取、统一数据库、自动化机会等。
互联网公司的启示
- 互联网公司通过网站等渠道销售产品，但仅仅有网站并不足以使其成为互联网公司。
- 互联网公司擅长AB测试、快速迭代、快速迭代代等。
AI公司的特点
- AI公司擅长战略数据获取（通过免费产品等方式获取数据以支持其他业务的盈利）。
- AI公司通常具有统一的数据库（以便工程师能够获取所需数据）。
- AI公司善于发现自动化机会（通过监督学习等方式减少人工干预，提高效率）。
- AI公司有很多新岗位，例如MLE（机器学习工程师），和很多给团队成员分配任务的新方式。
AI转型五步法
（1）执行试点项目，以获取AI项目的初步经验和感觉。
（2）建立内部AI团队
（3）提供广泛的AI培训，包括工程师、经理和领导者。
（4）制定AI战略
（5）保证内外部沟通一致，确保所有利益相关者对齐。

（六）机器学习的能力边界和具体例子

监督学习（Supervised Learning）的能力边界
- 监督学习可以做什么：如处理简单任务，如判断退款请求、垃圾邮件过滤等。
- 监督学习不能做什么：如复杂文本生成或情感丰富的响应，目前技术难以实现。
- 规则：是否可用监督学习取决于任务是否简单且可在短时间内完成（Anything you can do with 1 second of thought, we can probably now or soon automate）。
具体案例分析
- 案例1：电商网站客户支持部门收到的邮件，将其分类为退款问题、运输问题、其他问题，并将邮件转发至相关部门。AI可以识别退款请求或运输问题，但难以自动生成复杂的响应。根据邮件内容将邮件转发至合适部门可自动化，但生成复杂回复对当下的AI仍有困难。
- 案例2：AI在识别车辆前方的物体（如其他车辆）方面表现良好，但难以从视频中学习识别人类手势意图，如工人示意停车或骑行者示意左转。（人类手势的复杂性，有时真人都难判断）
- 案例3：在看几十张医学图像，并且读上几段医学教科书的内容，这个医生可能就能学会如何分辨肺炎。相比之下，人工智能系统还不能做到这一点。
- 数据需求：大量数据对于训练AI系统至关重要，小数据集可能导致性能不佳。
- 失败模式：数据不足或概念复杂可能导致AI生成无意义的响应或垃圾文本。
机器学习问题的可行性因素
- 简单概念：学习简单概念更可能成功，（没有定义，但比如一秒或几秒能得出结论的事情，类似这种概念就可以视为简单概念）如识别图像中的物体。
- 数据量：大量可用数据增加成功几率，包括输入数据和标签数据。
机器学习在以下情况时表现不佳：
- 处理复杂概念和小数据量
- AI在处理新型数据时存在困难，缺乏人类般的适应性和鲁棒性。
  - 例如人类从左侧肺炎图像学习，很快能适应右侧图像，因为人类能看出来图片的不同是因为患者平躺的角度导致，但AI在新数据面前举一反三的能力没有这么强。

（七）深度学习非技术解释

深度学习和神经网络的基本概念
- 深度学习和神经网络在AI中几乎可以互换使用
神经网络的示例：需求预测
- 简单：通过创建数据集，发现价格越高，需求越低，可以通过拟合直线来展示这种关系。实际上，这条直线可以看作是一个最简单的神经网络，输入：价格，输出：需求。
- 复杂神经网络
  - 考虑更多影响因素，如运费、营销预算和材料成本，构建更复杂的神经网络。
  - 神经网络由多个人工神经元组成，每个神经元计算一个简单的函数，但组合起来可以计算复杂的函数。
  - 通过训练神经网络，可以自动学习输入到输出的映射关系，无需手动选择关键因素。
- 人脸识别
  - 计算机如何识别图片：对于人眼，计算机看到的是像素亮度值构成的网格，黑白或灰度图像中每个像素对应一个亮度数值。彩色图像里每个像素对应红、绿、蓝三个亮度数值，神经网络要接收这些像素相关数值来判断图片中人物身份（数值量：图像分辨率、是否彩色等）。
  - 运算过程：通常，神经网络靠前部分的神经元会学习检测图片中的边缘，稍后一些的神经元检测五官、脸部部件，再靠后的神经元会整合脸部形状，输出身份。
  - 自主学习：神经网络具有自主学习能力，无需人工明确规定各神经元具体的计算内容，只需向其提供大量带有对应正确人物身份标注的图片数据，其内部的学习算法便能自动确定各中间神经元应进行的运算，从而实现准确的人脸识别功能。

思维导图

吴恩达AI for everyone第一周