机械学习概述

本文介绍了人工智能、机器学习(包括深度学习)、规则学习与模型学习的区别,阐述了这些技术在人工智能领域的应用和历史发展,以及数据、算法、算力和特征工程在机器学习中的核心作用。
摘要由CSDN通过智能技术生成

机械学习概述
    人工智能三大概念
        [知道]人工智能
            - Artificial Intelligence  人工智能
- AI is the field that studies the synthesis and analysis of computational agents that act intelligently                                    
-AI is to use computers to analog and instead of humanbrain
释义 - 仿智; 像人一样机器智能的综合与分析;机器模拟代替人类                             
-释义:是一个系统,像人那样思考 像人那样理性思考                  
-释义:是一个系统,像人那样活动 像人那样合理系统           
        [知道]机械学习
            -Machine Learning   释义:机器学习|
-Field of study that gives computers the ability to learn without being explicitly programmed
-释义:让机器自动学习,而不是基于规则的编程(不依赖特定规则编程)
- 人类识别车:根据车的特征归纳出车的规律;来了一个新的图片,判断预测是否是车
- 机器学习识别车: 从数据中获取规律;来了一个新的数据,产生一个新的预测
        [知道]深度学习
            -深度学习(DL, Deep Learning) : ,也叫深度神经网络,大脑仿生,设计一层一层的神经元模拟万事万物
        [知道]三者之间的关系
            机器学习是实现人工智能的一种途径

深度学习是机器学习的一种方法
        [了解]学习方式
            [了解]基于规则的学习
                基于规则的预测: 程序员根据经验利用手工的if-else方式进行预测
担忧好多问题,无法明确的写下规则, 此时我们无法使用规则学习的方式来解决这一类问题,比如:
-图像和语言识别
-自然语言处理
            [了解]基于模型的学习
                基于模型的学习就是通过编写机械学习算法,让机器自己学习从历史数据中获得经验,训练模型
    人工智能应用领域和发展史
        [了解]应用领域 
            用户分析: 社交网络,影评,商品评论
搜索引擎:网页,图片,视频,新闻,学术,地图
信息推荐:新闻,商品,游戏,书籍
图片识别:人像,用品,交通工具
机器翻译,摘要生成
生物信息学习... ...多模态 AR/VR
        [了解]发展史
            1956年夏季,以麦卡赛、明斯基、罗切斯特和申农等为首的一批有远见卓识的年轻科学家在一起聚会,共同研究和探讨用机器模拟智能的一系列有关问题,并首次提出了“人工智能”这一术语,它标志着“人工智能”这门新兴学科的正式诞生。
1956 年被认为是人工智能元年
1950-1970
符号主义流派:专家系统占主导地位
1950:图灵设计国际象棋程序
1962:IBM Arthur Samuel 的跳棋程序战胜人类高手(人工智能第一次浪潮)
1980-2000
统计主义流派:主要用统计模型解决问题
1993:Vapnik提出SVM
1997:IBM 深蓝战胜卡斯帕罗夫(人工智能第二次浪潮)
2010-2017
神经网络、深度学习流派
2012:AlexNet深度学习的开山之作
2016:Google AlphaGO 战胜李世石(人工智能第三次浪潮)
2017-至今
大规模预训练模型
2017年,自然语言处理NLP的Transformer框架出现
2018年,Bert和GPT的出现
2022年,chatGPT的出现,进入到大规模模型AIGC发展的阶段
    [知道]机械学习发展三要素
        数据,算法,算力三要素相互作用,是AI发展的基石
        1. CPU:负责调度任务、计算任务等;主要适合I\O密集型的任务
2. GPU:更加适合矩阵运算;主要适合计算密集型任务
3. TPU:Tensor,专门针对神经网络训练设计一款处理器
    常见术语
        样本,特征,标签/目标值
            样本:一行数据就是一个样本;多个样本组成数据集;幼师一条样本被叫做一条数据
特征:一列数据一个特征,有时也被称为属性
标签/目标:模型要预测的那一列数据.
        数据集划分
            数据集可划分两部分:训练集、测试集  比例:8 : 2,7 : 3 
训练集(training set) :用来训练模型(model)的数据集
测试集(testing set):用来测试模型的数据集
    算法分类
        [掌握]有监督学习
            定义: 输入数据是由输入特征和目标值所组成,即输入的训练数据有标签的
数据集:需要人工标注数据
        [掌握]分类
            目标值(标签值)是不连续的
分类种类:二分类,多分类任务
        [掌握]回归
            目标值(标签值)是连续的
        [熟悉]无监督学习
            定义:输入数据没有被标记,即样本数据类别未知,没有标签,根据样本间的相似性,对样本集聚类,以发现食物内部 结构即相互关系
数据集:不需要标注数据
            无监督学习的特点:
1.训练数据无标签
2.根据样本间的相似性对样本集进行聚类,发现事物内部结构及相互关系
        [了解]半监督学习
            工作原理:
1. 让专家标注少量数据,利用已经标记的数据(也就是带有类标签)训练出一个模型
2.再利用该模型去套用未标记的数据
3.通过询问领域专家分类结果与模型分类结果作对比,从而对模型做进一步改善和提高
半监督学习方式可大幅度降低标记成本
        [了解]强化学习
            1.强化学习:机器学习的一个重要分支
2.应用场景:里程碑AIphaGo围棋.各类游戏,对抗比赛.无人驾驶场景
3.基本原理:通过构建四个要素:agent,环境状态,行动,奖励
agent根据环境状态进行行动获得最多的累计奖励
        [知道]机器学习的建模流程
            1.获取数据
2.数据基本处理
3.特征工程
4.机器学习(模型训练)
5.模型评估
            特征工程:利用专业背景知识和技巧处理数据,让机器学习算法效果最好。这个过程就是特征工程
释义:特征工程是困难、耗时、需要专业知识。应用机器学习基础就是特征工程                             

【理解】数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。
            [了解]特征降维
                将原始数据的维度降低,叫做特征降维
会丢失部分信息。降维就需要保证数据的主要信息要保留下来
原始数据会发生变化,不需要了解数据本身是什么含义,它保留了最主要的信息
            [了解]特征选择
                原始数据特征很多,但是对任务相关是其中一个特征集合子集。
从特征中选择出一些重要特征(选择就需要根据一些指标来选择)
特征选择不会改变原来的数据
            [了解]特征组合
                把多个的特征合并成一个特征。
通过加法、乘法等方法将特征值合并
            [掌握]模型拟合问题
                拟合:用来表示模型对样本点的拟合情况
欠拟合:模型在训练集上表现很差、在测试集表现也很差
原因:模型过于简单
过拟合:模型在训练集上表现很好、在测试集表现很差
原因:模型太过于复杂、数据不纯、训练数据太少
泛化:模型在新数据集(非训练数据)上的表现好坏的能力
奥卡姆剃刀原则:给定两个具有相同泛化误差的模型,较简单的模型比较复杂的模型更可取

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值