机器学习相关定义

  1. SOTA (State of The Art 当前最佳 )某方法取得了比其他方法更优异的结果

    调参调的好 数据预处理的好 扩展的模型

  2. CNN (Convolvtioal Neural Network 卷积神经网络):前几层提取特征,最后的全连接层进行分类

  3. GNN (Graph Neural Network 图神经网络)是指节点和边的图,

    节点:实体 边:实体之间的关系 (知识图谱就是这样一张图

  4. RNN(Recurrent Neural Network 循环神经网络)高度重视序列信息的网络,常用于自然语言处理

    缺陷:容易忘记之前的说的什么 (在机器翻译这里只能实现n-n n-1 1-n 不能实现n-m)

  5. LSTM:长短时记忆模型(改良的RNN):遗忘门、输入门、输出门

  6. LSTM 的变体:MGU、SRU、GRU

    GRU(Gated Recurrent unit)门控循环单元:两个门 (最受欢迎

    更新门:遗忘门和输入门的结合体:决定丢弃哪些旧信息,添加哪些新信息

    重置门:决定写入多上上一时刻网络的状态,用来捕捉短期记忆

  7. KNN:K近邻算法(不是神经网络)常用的分类算法 附近的什么多 ,就给他分给什么类别 (画圈)

    统计,分词 判断文章的类型 ;推荐感兴趣

    缺点:数据量大,难以应用到较大的数据集中

  8. BP算法:反向传播算法

    决定神经网络好不好用是神经元之间连接的权重和神经元之间的阈值,如何确定这些数字 大部分我们使用反向传播

    根据网络输出的答案与正确答案之间的误差,不断调整网络的参数,调整的程度受一定的比率即【学习率】的制约。

    很容易过拟合,可以采用提前停止策略(测试集验证集,测试集误差减少但是验证集误差增加,此时需要结束训练)

  9. 决策树 常用于分类

    构建决策树的标准:熵:用来描述一个系统内在的混乱程度

    在决策树中,熵代表的是分支下样本种类的丰富性

    随着树的深度,让熵快速降低,降低的越快,代表决策树的分类效率越高

    优点:可解释性 缺点:数据都是有特例的,如果一棵树能将训练样本完美分类,它一定是过拟合的

    解决方法:去掉一些分支【剪枝】

    有两种:预剪枝: 训练开始前规定条件,例如树达到某一深度停止训练

    ​ 后剪枝: 先找到树,再依据一定的条件如限制叶子节点的个数,去掉一部分分支

  10. 随机森林(Random forest)随机森林里有很多决策树 属于【集成学习】:将多个模型组合解决问题

    随机指树的生长过程,在构建决策树时,在训练样本中有放回的随机选取一部分样本,随机选取部分特征进行训练,每棵树使用的样本和特征各不相同。降低了异常样本和特征选取对分类结果的影响

  11. 梯度提升树GBDT(gradient booting decision tree)

    许多决策树组成,都是【回归树】:将苹果的好坏打分 (【分类树】:将苹果的分好坏)

    GBDT中的每棵树都建立在前一棵树的基础上:

    先训练一棵树大体预测苹果的分数,再去训练一棵树预测它们与真实分数间的差距,如果两者相加仍与真实分数存在差距,再训练第三棵树预测这部分差距,重复过程,不断减少误差,将这些树的预测值加起来就是苹果的分数。解释性强,因为树与树之间的相互依赖,需要较常的训练时间。属于【集成学习】

    这类一个模型依赖于上一个模型共同逼近正确答案的方法被称为【Boosting (提升)】

    与随机森林类似,模型间相互独立共同投票出结果的方法被称为【Bagging(装袋)】

    多个模型的基础上放一个更高层的模型,底层模型的输出为它的输入,得出最终预测结果【Stacking(堆叠)】

  12. XGboost:GBDT的改良版本,大幅提升了计算速度,在高维稀疏特征数据集和小数据集表现不太好

    训练模型通常是定义一个目标函数,然后去优化它

    xgboost的目标函数包括损失函数和正则项两部分;损失函数代表着模型拟合数据的程度,正则项用来控制模型的复杂程度,是一个惩罚机制。

  13. SVM 支持向量机 画条线

    找线附近的样本,让它们与线的距离越远越好,这个距离为【分类间隔】,决定线的样本被称为【支持向量】

    • 如果样本的分布有交叉,关注无法被线正确分类的样本与线之间的距离,找到能最小化这个距离的线

    • 如果样本的分布不理想,无法用直线区分:将它们映射到一个能用直线区分的空间,再寻找分类线

    深度学习出现前,随机森林和SVM是最好用的分类方法.SVM对样本的依赖小,不会过拟合,小样本也能取得不错的效果。

  14. EM算法:最大期望算法 (找到样本的分布规律,在聚类的同时,帮找到更多的梨和苹果

    面对敏感问题时,提出两个问题,不知道答案对应的是哪个问题。

    • step1:随机为吸烟者和吸大麻者赋予一个数值
    • step2【E-step】: 用这个数值反过来去推测这些成组的答案属于两个问题的可能性(估算未知变量也就是问题归属的期望
    • step3【M-step】:用这个可能性反过来估算吸烟者和吸大麻者的概率
    • 重复第二步,用新的概率推算答案属于两个问题的可能性,再第三步,循环往复,直到估算出较稳定的数值就停止
  15. attention :简单来说,是一种简化方法,从复杂的输入信息中找到对当前输出最重要的部分(可解释性好

    一个典型的attention包括三部分 Q、K、V

    Q:query 是输入的信息

    key和value成组出现,通常是源语言、原始文本等已有信息

    通过计算Q与K之间的相关性,得出不同的K对输出的重要程度,再与对应的V相乘求和,就得到了Q的输出

    eg:阅读理解 Q 是问题,K和V是原始文本,计算与K的相关性,找到文本中最需要注意的部分,利用V得到答案。

    • self-attention:只注意输入序列元素间的关系,通过将输入序列直接转化为Q,K,V,在内部进行attention计算,就能很好的捕捉文本的内在联系,对其做出再表示
    • multi-head attention:在自注意力机制的基础上使用多种变换生成的QKV进行运算,再将它们对相关性的结论综合起来,进一步增强self-attention的效果
  16. transformer :基于自注意力机制的编码器解码器架构

    seq2seq】:一个拥有编码器encoder和解码器decoder的模型 (这也属于RNN网络

    这次先由encoder提取原始句子的意义,再由decoder将意义转换成对应的语言,依靠意义这个中介,seq2seq成功解决了两端单词数不对等的状况

    缺陷:意义单元能够存储的信息是有限的,如果一个句子太长,翻译精度就会随之下降

    于是找到了attention注意力机制,在seq2seq的基础上,生成每个单词时,都有意识的从原始句子中提取生成该单词时最需要的信息,成功摆脱了输入序列的长度限制

    缺陷:太慢了,RNN需要逐个过句子中的单词才能给出输出

    找到了self-attention自注意力机制,先提取每个单词的意义,再依据生成顺序选取所需要的信息,支持并行计算,效率更高

在这里插入图片描述

  1. BERT :帮助我们找到词语位置的模型之一

    不同的训练方式:有遮挡的,收集的语料库中随机覆盖15%的词汇,由bert猜测该词。 输入成组的句子,由bert判断两个句子是否相连。

    在完成不同的自然语言任务时,需要将已经训练好的bert依据任务目标增加不同功能的输出层联合训练。

    eg:文本分类增加了分类器:输入句子输出类别;阅读理解增加了全连接层:输入问题和文章输出答案的位置

  2. GPT:机器翻译、文本分类、新闻写作生成类任务

    GPT-3 接近于一个包含知识、语境理解和语言组织能力的数据库

在这里插入图片描述

  1. GAN (generative adversarjal network)生成对抗网络 :目标是获得一个足够好的生成器,能完成这种功能的有 玻尔兹曼机、变分自编码器等被称为【生成模型】

    包含三个部分:生成、判别、对抗

    生成和判别是两个独立模块:生成器负责依据随机向量产生内容 ,判别器负责判断接收到的内容是否是真实的,通常它会给出一个概率,代表内容的真实程度

    对抗:交替训练过程

    eg:图片生成,先让生成器产生一些假图片和收集到的真图片一起交给判别器,让它学习区分两者,给真的高分给假的低分,当判别器能够熟练判断现有数据后,再让生成器以从判别器处获得高分为目标,不断生成更好的假图片,直到能骗过判别器,重复进行这一过程,直到判别器对任何图片的预测概率都接近0.5,即无法分辨出图片的真假就停止训练

    缺陷:难训练,一直生成同一种骗过判别器的假图片来完成目标,这就是模式崩溃

  2. WGAN:W:wasserstein 距离

    以它为依据的判别器不仅能很好的判断生成内容与真实内容有多相似,还能为生成器的改进方向给出指导

    除了改变判断基准还可以改变网络类型

    DCGAN:是生成器和判别器均为卷积神经网络的GAN:生成器先确定轮廓等高级特征再逐步细化低级特征。

    生成器和判别器的数量也可以改变

    CycleGAN能将简笔画变成实物照片,两个生成器,两个判别器;其中一个生成器负责根据简笔画生成照片,另一个生成器负责根据照片生成简笔画;首尾相连,让经过两次转换的内容尽可能与原始内容一致。

  3. 迁移学习(transfer learning):利用数据、任务、模型间的相似性,将训练好的内容应用到新的任务上

  4. 联邦学习(federated learning): 解决数据的协作和隐私问题

  5. 强化学习(reinforcement learning):主体agent:做出决策,通过环境的变化做出奖励最多的决策。

  6. 梯度下降:在训练开始之前,模型代表的分布和真实参数存在差异,以损失函数表示误差,需要找到最小的位置,梯度下降:沿着梯度所指出的方向一步一步向下走去寻找损失函数最小值的过程

  7. 深度强化学习:使用神经网络构建强化学习中的主体。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值