深度学习 花书中的概念——百晓生知识处理库自动抽取

分割后的名词组 [‘机器学习(machinelearning)’, ‘逻辑回归(logisticregression)的简单机器学习算法可以决定是否建议剖腹产(Mor-Yosefetal.’, ‘一个特征’, ‘“隐藏层”;模型必须确定哪些概念有利于解释观察数据中的关系’, ‘深度是从输入到输出的最长路径的长度’, ‘控制论’, ‘随机梯度下降(stochasticgradientdescent)的一种特例’, ‘线性模型(linearmodel)’, ‘整流线性单元(rectifiedlinearunit)的神经单元模型’, ‘“计算神经科学”’, ‘联结主义(connectionism)或并行分布处理(paralleldistributedprocessing)潮流而出现的(Rumelhartetal.’, ‘“贪婪逐层预训练”的策略来有效地训练(Hintonetal.’, ‘A的第i行(row)’, ‘主对角线(maindiagonal)’, ‘两个矩阵相加’, ‘广播(broadcasting)’, ‘我们可以通过将两个或多个矩阵并列放置以书写矩阵乘法’, ‘元素对应乘积(element-wiseproduct)或者Hadamard乘积(Hadamardproduct)’, ‘矩阵逆(matrixinversion)的强大工具’, ‘线性组合(linearcombination)’, ‘形式上’, ‘A的列空间(columnspace)或者A的值域(range)’, ‘线性相关(lineardependence)’, ‘线性无关(linearlyindependent)’, ‘奇异的(singular)’, ‘范数(norm)的函数来衡量向量大小’, ‘欧几里得范数(Euclideannorm)’, ‘“L0范数”’, ‘最大范数 (maxnorm)’, ‘我们需要注意正交矩阵’, ‘方阵A的特征向量(eigenvector)’, ‘这个特征向量对应的特征值(eigenvalue)’, ‘正定(positivedefinite);所有特征值都是非负数的矩阵’, ‘负定(negativedefinite);所有特征值都是非正数的矩阵’, ‘奇异值分解(singularvaluedecomposition’, ‘矩阵A的奇异值(singularvalue)’, ‘左奇异向量 (leftsingularvector)’, ‘该最小化函数可以简化成(式(2.30)中L2范数’, ‘更进一步’, ‘频率派概率(frequentistprobability);而后者涉及确定性水平’, ‘联合概率分 布(jointprobabilitydistribution)’, ‘P’, ‘p’, ‘边缘概率分布(marginalprobabilitydistribution)’, ‘条件概率’, ‘干预查询(interventionquery)’, ‘概率的链式法 则(chainrule)或者乘法法则(productrule)’, ‘它可以直接从式(3.5)条件概率’, ‘函数f(x)关于某分布P(x)的期望(expectation)或者期望值(expectedvalue)’, ‘标准差(standarddeviation)’, ‘Multinoulli分布(multinoullidistribution)或者范畴分布(categoricaldistribution)’, ‘高斯分布(Gaussiandis-tribution):’, ‘为高斯分布(Gaussiandis-tribution):’, ‘多维正态分布(multivariatenormaldis-tribution)’, ‘广义函数(generalizedfunction)’, ‘分对数(logit)’, ‘softplus函数被设 计成正部函数(positivepartfunction)的平滑版本’, ‘贝叶斯规则可以从条件概率’, ‘“零测度(measurezero)”的’, ‘这意味着而这违背了概率密度’, ‘当x是连续的’, ‘换 言之’, ‘微分熵(differentialentropy)’, ‘结构化概率模型(structuredprobabilisticmodel)或者图模型(graphicalmodel)’, ‘xi的父节点’, ‘团’, ‘这通常’, ‘目标函数(objectivefunction)或准则(criterion)’, ‘代价函数(costfunction)、损失函数(lossfunction)或误差函数(errorfunction)’, ‘梯度下降(gradientdescent)(Cauchy’, ‘临界点(criticalpoint)或驻点(stationarypoint)’, ‘鞍点(saddlepoint)’, ‘最速下降法(methodofsteepestdescent)或梯度下降(gradientdescent)’, ‘线搜 索’, ‘爬山(hillclimbing)算法(RusselandNorvig’, ‘Jacobian矩阵’, ‘Hessian矩阵’, ‘一阶优化算法(first-orderoptimizationalgorithms)’, ‘二阶最优化算法(second-orderoptimizationalgo-rithms)(NocedalandWright’, ‘约束优化(constrainedoptimization)’, ‘可行(feasible)点’, ‘广义Lagrangian(generalizedLagrangian)或广义Lagrange函数(generalizedLagrangefunction)的新函数’, ‘等式约束(equalityconstraint)’, ‘KKT乘子’, ‘Karush-Kuhn-Tucker(KKT)条件(Karush’, ‘首先’, ‘随机梯度下降的算法求解的’, ‘Mitchell(1997)提供了一个简洁’, ‘Mitchell(1997)提供了一个简洁的定义:“对于某类任务T和性能度量P’, ‘”经验E、任务T和性能度量P’, ‘从“任务”的相对正式’, ‘样本’, ‘例如’, ‘结构化输出任务’, ‘准确率’, ‘错误率’, ‘0-1损失的期望’, ‘数据集’, ‘数据点(datapoint)’, ‘监督学习’, ‘正如监督学习和无监督 学习没有正式’, ‘正规方程(normalequation)’, ‘仿射变换的偏置(bias)参数’, ‘泛化(generaliza-tion)’, ‘训练误差(trainingerror)的度量误差’, ‘测试误差(testerror))很低’, ‘数据生成过程(datageneratingprocess)的概率分布生成’, ‘独立同分布假设(i.i.d.assumption)的假设’, ‘数据生成分布(datageneratingdistribution )’, ‘欠拟合’, ‘通俗来讲’, ‘模型的表示容量(representationalcapacity)’, “奥卡姆剃刀(Occam’srazor)(c.1287-1387)”, ‘贝叶斯误差(Bayeserror)’, ‘正则化项 (regularizer)的惩罚’, ‘正则化(regularization)’, ‘正则化’, ‘训练集’, ‘验证集’, ‘点估计’, ‘估计量’, ‘函数估计’, ‘是无偏(unbiased)’, ‘是渐近无偏(asymptoticallyunbiased)’, ‘样本均值(samplemean):’, ‘样本方差(samplevariance):’, ‘标准差(standarderror)’, ‘在机器学习实验中’, ‘一致性(consistency)’, ‘有时 它’, ‘几乎必然收敛(almostsureconvergence)’, ‘之前’, ‘最小化代价函数’, ‘“先验”)’, ‘逻辑回归(logisticregression)’, ‘核函数(kernelfunction)的函数k(x’, ‘径向基函数(radialbasisfunction’, ‘核机器(kernelmachine)或核方法(kernelmethod)(WilliamsandRasmussen’, ‘支持向量(supportvector)’, ‘监督和无监督算法之 间的区别没有规范严格’, ‘通俗地说’, ‘“最佳”可以是不同的表示’, ‘使用X的SVD分解’, ‘其中’, ‘维数灾难(curseofdimensionality)’, ‘Voronoi图’, ‘数学上’, ‘每个点 周围邻域’, ‘前馈神经网络(feedforwardneuralnet-work)或者多层感知机(multilayerperceptron’, ‘前向(feedforward)的’, ‘循环神经网络(recurrentneuralnetwork)’, ‘网络(network)’, ‘网络的第一层(firstlayer)’, ‘模型的深度(depth)’, ‘输出层(outputlayer)’, ‘隐藏层(hiddenlayer)’, ‘神经网络’, ‘激活函数的固定非线性函数来实现这个目标’, ‘ReLU(Jarrettetal.’, ‘平均绝对误差(meanabsoluteerror)’, ‘线性单元’, ‘分对数(logit)’, ‘“softargmax”’, ‘异方差(heteroscedastic)模型’, ‘混合密度网络(mixturedensitynetwork)’, ‘线性单元和整流线性单元的唯一区别在于整流线性单元在其一半’, ‘灾难遗忘(catastrophicforgetting)的现象’, ‘架构(architecture)一词’, ‘层的单元组’, ‘backprop’, ‘操作’, ‘符号表示(symbolicrepresentation)’, ‘符号到数值的微分’, ‘动态规划(dynamicprogramming)’, ‘正如前面 提到的’, ‘反向模式累加(reversemodeaccumulation)的更广泛类型的技术的特殊情况’, ‘前向模式累加(forwardmodeaccumulation)’, ‘如果ν本身是由计算图产生的一个向 量’, ‘正则化’, ‘集成的方法’, ‘权重衰减(weightdecay)的L2参数范数惩罚’, ‘岭回归或Tikhonov正则’, ‘Karush-Kuhn-Tucker(Karush-Kuhn-Tucker)乘子的系数以及一个表示约束是否满足的函数之间的乘积’, ‘提前终止(earlystopping)’, ‘参数共享(parametersharing)’, ‘OMP-k’, ‘模型平均(modelaveraging)’, ‘集成方法’, ‘Boosting的 技术(FreundandSchapire’, ‘推断(inference)’, ‘权重比例推断规则(weightscalinginferencerule)’, ‘快速Dropout(fastdropout)’, ‘DropoutBoosting的方法设计了一个对照实验’, ‘虚拟对抗样本(virtualadversarialexample)(Miyatoetal.’, ‘风险(risk)’, ‘经验风险最小化(empiricalriskminimization)在这种情况下’, ‘如果能够快速地计算出梯度估计值’, ‘批量(batch)或确定性(deterministic)梯度算法’, ‘随机(stochastic)或者在线(online)算法’, ‘术语“在线”通常’, ‘小批量(minibatch)或小批量随机(minibatchstochastic)方法’, ‘乘以H或是其逆会放大之前存在的误差(这个示例中’, ‘可辨认的’, ‘权重空间对称性(weightspacesymmetry)’, ‘在n-维空间中’, ‘和极小值一样’, ‘梯度消失与爆炸问题(vanishingandexplodinggradientproblem)’, ‘稀疏初始化(sparseinitialization)的替代方案’, ‘共轭的’, ‘坐标下降(coordinatedescent)’, ‘更一般地’, ‘稀疏编码的学习问题’, ‘预训练(pretraining)’, ‘贪心监督预训练(greedysupervisedpretraining)’, ‘当我们说J(i)比J(i+1)更容易时’, ‘课程学习(curriculumlearning)或者塑造(shaping)的方法可以被解释为延拓法’, ‘卷积神经网络(convolutionalneuralnetwork’, ‘卷积网络’, ‘通常来说’, ‘为了给出卷积’, ‘卷积(convolution)’, ‘输入(input)’, ‘特征映射(featuremap)’, ‘张量’, ‘互相关函数(crosscorrelation)’, ‘卷积的这个传统’, ‘“有效”卷积’, ‘Toeplitz矩 阵(Toeplitzmatrix)’, ‘稀疏连接(sparseconnectivity)或者稀疏权重(sparseweights))的特征’, ‘s3的接受域(receptivefield)’, ‘这意味着在卷积网络中尽管直接连接都是很稀疏的’, ‘探测级(detectorstage)’, ‘平移的不变性’, ‘首先’, ‘下采样卷积的步幅(stride)’, ‘有效(valid)卷积’, ‘相同(same)卷积’, ‘全(full)卷积’, ‘非共享卷积(unsharedconvolution)’, ‘可分离的(separable)’, ‘V1的大脑的一部分’, ‘为初级视觉皮层(primaryvisualcortex)’, ‘外侧膝状核的脑部区域’, ‘“祖母细 胞”——这个想法是一个人可能有一个神经元’, ‘内侧颞叶的区域(Quirogaetal.’, ‘“HalleBerry神经元”的神经元:由HalleBerry的概念激活的单个神经元’, ‘颞下皮质(IT )的脑区’, ‘中央凹(fovea)的小块’, ‘扫视(saccade)’, ‘反向相关(reversecorrelation)(RingachandShapley’, ‘为简单起见’, ‘系统的状态’, ‘s在时刻t’, ‘通过时间反向传播(back-propagationthroughtime’, ‘“上下文”’, ‘编码-解码或序列到序列架构’, ‘浅变换’, ‘储层计算(reservoircomputing)(LukoševičiusandJaeger’, ‘渗漏单元(leakyunit)’, ‘门控RNN(gatedRNN)’, ‘门控循环单元或GRU(Choetal.’, ‘最初’, ‘warp的小组’, ‘数据并行(dataparallelism)’, ‘条件计算(conditionalcomputation)(Bengio’, ‘选通器(gater)的神经网络来选择在给定当前输入的情况下将使用几个专家网络(expertnetwork)中的哪一个来计算输出’, ‘专家混合体(mixtureofexperts)(Nowlan’, ‘sphering的预处理操作’, ‘白化(whitening)’, ‘是受限玻尔兹曼机的无向概率模型’, ‘n-gram’, ‘一元语法(unigram)’, ‘词嵌入(wordembedding)’, ‘提议分布(proposaldistribution)(记为q)’, ‘重要采样(ImportanceSampling)的更通用技术的应用’, ‘有偏重要采样’, ‘这些神经模型已经从在一小组符号上’, ‘协同过滤(collaborativefiltering)’, ‘嵌入)’, ‘为嵌入)’, ‘冷启动推荐问题’, ‘基于内容的推荐系统(content-basedrecommendersystem)’, ‘策略(policy)’, ‘为策略(policy)’, ‘探索’, ‘监督学习在探索或开发之间没有权衡’, ‘知识库’, ‘ICA’, ‘按照我们对生成模型这个术语’, ‘独立子空间分析(independentsubspaceanalysis)’, ‘严格来说’, ‘重构)r’, ‘欠完备(undercomplete)自编码器’, ‘收缩自编码器(contractiveautoencoder’, ‘RBM的无向概率模型是等价的(Vincent’, ‘图底部的水平箭头表示在输入空间中基于 箭头的r(x)-x重建方向向量’, ‘嵌入’, ‘编码器或表示函数)’, ‘收缩的’, ‘语义哈希(semantichashing)(SalakhutdinovandHinton’, ‘无监督预训练(unsupervisedpretraining)’, ‘贪心(greedy)的’, ‘逐层的(layerwise)’, ‘无监督(unsupervised)的’, ‘预训练(pretraining)’, ‘零数据学习(zero-datalearning)’, ‘一次学习;没有标 注样本的迁移任务被’, ‘例如’, ‘无监督学习的另一个思路是选择一个更好的确定哪些潜在因素最为关键’, ‘以上图像由ChelseaFinn提供还有一些其他的显著性’, ‘one-hot表示’, ‘图模型(graphicalmodel)’, ‘信念网络(beliefnetwork)或者贝叶斯网络(Bayesiannetwork)(2)(Pearl’, ‘反之’, ‘马尔可夫随机场(Markovrandomfield’, ‘团势能(cliquepotential))’, ‘为团势能(cliquepotential))’, ‘是配分函数’, ‘为了获得一个无向模型的归一化概率分布’, ‘有向建模和无向建模之间一个重要的区别就是有向模型是通过从起始点的概率分布直接定义的’, ‘当我们处理无向模型时需要牢记一点’, ‘答案是我们无法确定’, ‘如果x’, ‘通常情况下’, ‘是能量函数(energyfunction)’, ‘玻尔兹曼机(BoltzmannMachine)(Fahlmanetal.’, ‘虽然玻尔兹曼机最初’, ‘马尔可夫随机场或对数线性模型’, ‘这个“-”符号可以被包含在E’, ‘概率建模的许多研究最初都是由统 计物理学家做出的’, ‘harmony)发出了不同的声音’, ‘自由能(freeenergy):’, ‘在本书中’, ‘分离(separation)’, ‘“非活跃”的’, ‘d-分离(d-separation)’, ‘有向图中d-分离’, ‘V-结构(V-structure)或者碰撞情况(thecollidercase)’, ‘无向模型或有向模型’, ‘无向模型’, ‘不道德(immorality)’, ‘是道德图(moralizedgraph)’, ’ 弦图(chordalgraph)或者三角形化图(triangulatedgraph)’, ‘原始采样(ancestralsampling)’, ‘结构学习(structurelearning)的领域专门讨论这个问题’, ‘环状信念传播(loopybeliefpropagation)的近似推断算法’, ‘层’, ‘“受限”’, ‘吉布斯分布(Gibbsdistribution)’, ‘渐近无偏的’, ‘马尔可夫链(MarkovChain)的数学工具’, ‘马尔 可夫链蒙特卡罗(MarkovChainMonteCarlo’, ‘在正式’, ‘矩阵A’, ‘随机矩阵(StochasticMatrix)’, ‘均衡分布(EquilibriumDistribution)’, ‘哈里斯链(HarrisChain)’, ‘马尔可夫链的磨合(Burning-in)过程’, ‘混合时间(MixingTime)’, ‘块吉布斯采样(blockGibbsSampling)’, ‘慢混合甚至混合失败’, ‘“幻觉”或“幻想粒子”’, ‘虚假模态(spuriousmodes)’, ‘其得分(score)’, ‘自对比估计(self-contrastiveestimation)的过程’, ‘如果’, ‘退火重要采样(annealedimportancesampling’, ‘桥)’, ‘推断 困难通常’, ‘证据下界(evidencelowerbound’, ‘最大后验(MaximumAPosteriori)推断’, ‘均值场(mean-field)方法’, ‘结构化变分推断(structuredvariationalinference )(SaulandJordan’, ‘变分法的数学分支工具来解决函数空间上的优化问题’, ‘衰减(damping)的启发式技巧来实现块更新’, ‘泛函(functional)J[f]’, ‘变分导数(variationalderivative)’, ‘向量v’, ‘配分函数的归一化常数:’, ‘从配分函数Z’, ‘S3C’, ‘为S3C’, ‘概率最大池化(probabilisticmaxpooling)的解决方案(不要与“随机池化”混淆’, ‘重参数化技巧(reparametrizationtrick)、随机反向传播(stochasticback-propagation)或扰动分析(perturbationanalysis)’, ‘自回归网络的模型将这个完全可 见的信念网络泛化到其他类型的变量(除二值变量)和其他结构(除对数线性关系)的条件分布’, ‘推断网络或识别模型)’, ‘为推断网络或识别模型)’, ‘LAPGAN模型’, ‘矩匹 配(momentmatching)的技术训练’, ‘最大平均偏差(maximummeandiscrepancy’, ‘完全可见的贝叶斯网络(fully-visibleBayesnetworks’, ‘NADE-k(Raikoetal.’, ‘RNADE的模型(Uriaetal.’]

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值