2022年08月_von Neumann

12月 11月 10月 09月 08月 07月 06月 05月 04月 03月 02月 01月

原创深入理解机器学习——概率图模型（Probabilistic Graphical Model）：隐马尔可夫模型（Hidden Markov Model，HMM）

在语音识别等任务中，观测值为语音信号，隐藏状态为文字，目标就是根据观测信号来推断最有可能的状态序列（即对应的文字），即上述第二个问题；在大多数现实应用中，人工指定模型参数已变得越来越不可行，如何根据训练样本学得最优的模型参数，怡是上述第三个问题，值得庆幸的是，基于条件独立性，隐马尔可夫模型的这三个问题均能被高效求解。它以图为表示工具，最常见的是用一个结点表示一个或一组随机变量，结点之间的边表示变量间的概率相关关系，即“变量关系图”。如下图所示，隐马尔可夫模型中的变量可分为两组，第一组是状态变量。...

2022-08-30 12:45:55 11647

原创知识图谱从入门到应用——知识图谱的存储与查询：基于原生图数据库的知识图谱存储

分类目录：《知识图谱》总目录尽管基于关系数据库的存储方式有很多优势，但是随着原生图数据库的技术及工具的逐步完善，原生图数据库已经成为知识图谱存储和查询引擎搭建的标准基础设施。在本文首先回答一个问题：为什么需要图数据库。关系数据库虽然被取名为“关系”，但却不善于处理“关系”。首先，关系模型将语义关联关系隐藏在外键结构中，无显示表达，并带来关联查询与计算的复杂性。其次，数据来源多样性带来大量离群数据（Outlier Data），导致数据集的宏观结构愈发复杂和不规整，对于包含大量离群数据的场景，关系模型将造成大量

2022-08-24 21:50:19 10968

原创知识图谱从入门到应用——知识图谱的存储与查询：基于关系数据库的知识图谱存储

知识图谱中包含两类信息，一类是图的结构信息，另一类是由节点和边的标记所包含的语义类型信息。针对知识图谱的特点，需要考虑存储相关的三个方面的问题：存储的物理结构、存储的性能问题和图的查询问题。第一个优化手段是建立Mapping Table，即将所有的字符串首先映射到唯一的数字ID，三列表中不再存储真实的字符串，而是只存储对应的数字ID，这将大大压缩存储空间。随着原生图数据库的兴起，以及外围工具的逐步完善，原生图数据库逐渐成为知识图谱存储的主要解决方案，将在后面文章中重点对原生图数据库展开介绍。

2022-08-24 13:31:20 11193

原创知识图谱从入门到应用——知识图谱的获取与构建：知识工程与知识获取

传统知识工程极大地依赖人工，且对知识表示的要求比较高，例如Cyc项目可以采用高阶的谓词逻辑来描述知识，而知识图谱获取的对象是相对简单的实体和三元组。在20世纪七八十年代，传统的知识工程的确解决了很多的问题，但是这些问题都有一个很鲜明的特点，即它们大部分都是在规则明确、边界清晰、应用封闭的场景取得的成功，一旦涉及开放的问题就比较难以实现。另外一方面，由于专家对知识的认知很难完全统一，而且专家知识也具有高度的不确定性、不精确性，导致其实很难用统一的符号精确刻画专家大脑中的知识，这也是著名的知识汤概念的内涵。

2022-08-23 13:07:41 11157

原创知识图谱从入门到应用——知识图谱的知识表示：向量表示方法

前文已经介绍过，向量化的表示已经在人工智能的其他领域非常常见，例如在自然语言处理中，可以为句子中的每个词学习一个向量表示（Word Embedding），在图像视频中也可以为每个视觉对象学习一个向量表示。对于知识图谱，也可以为其中的每一个实体和关系学习一个向量表示，并利用向量、矩阵或张量之间的计算，实现高效的推理计算。

2022-08-22 20:31:51 18177 3

原创知识图谱从入门到应用——知识图谱的知识表示：符号表示方法

在前面的文章中已经多次提到，知识图谱采用图的方式描述和表达知识，相比于简单图，能建模更加复杂的事物关系，但比起形式化逻辑，又免于复杂的逻辑约束，使得知识的获取过程变得更加容易。但在知识图谱的实际实践中，不同的应用场景会对知识的建模采用不同表达能力的图表示方法。例如有些应用场景仅采用最简单的无向图，通常适合于对建模要求不高，偏于数据挖掘类的应用场景。知识图谱表示应用最多的是有向标记图（Directed Labelled Graph）。

2022-08-22 20:05:25 13418

原创知识图谱从入门到应用——知识图谱的知识表示：基础知识

实际上，人类的自然语言，以及创作的绘画和音乐、数学语言、物理模型、化学公式等都是人类知识的表示形式和传承方式。具有获取、表示和处理知识的能力是人类心智区别于其他物种心智的最本质的特征之一。所以，传统的人工智能领域有一个经典的研究方向叫知识工程和专家系统。这种经常被称为是GOFAI（Good Old Fashioned AI）的基本思想是建立一个系统，能够从专家大脑里获取知识，即知识工程，再通过一个推理引擎为非专家用户提供服务。回到20世纪的人工智能研究。...

2022-08-22 13:06:55 11407

原创知识图谱从入门到应用——知识图谱的技术结构

分类目录：《知识图谱》总目录知识图谱是典型的交叉技术领域。在人工智能和机器学习领域，传统符号知识表示是知识图谱的重要基础技术；同时深度学习、表示学习等领域与知识图谱的交叉产生了知识图谱嵌入、知识图谱表示学习等交叉领域。在传统的自然语言处理领域，怎样从文本中自动化识别实体、抽取关系、检测事件等信息一直是经久不衰的研究热题，Knowledge Base Population即是知识图谱与自然语言处理之间产生的交叉领域。在数据库领域，知识图谱与数据库的交叉又产生了图数据库，而图嵌入、图挖掘等数据挖掘领域的方法也广

2022-08-19 13:13:31 11067

原创知识图谱从入门到应用——知识图谱的应用

语义和知识在物联网领域有很多的应用场景。例如，一个温度可能是人的体温，也可能是一个设备的温度，进一步理解这个温度数据还需要知道是在什么时间、什么位置等，丰富的语义描述将大大提升物联设备数据的利用效率，终极的万物互联是设备通过规范化的语义实现数据层面的互联。在电商领域，阿里巴巴生态积聚了海量的商品和交易数据，它以商品、产品、品牌和条码为核心，构建了百亿级别的商品知识图谱，可以广泛应用于搜索、导购、平台治理、智能问答等业务，同时保持每天千万级别的恶意攻击拦截量，极大提升了消费者的购物体验。...

2022-08-18 22:42:55 11725

原创知识图谱从入门到应用——知识图谱的发展

1945年，美国首任总统科学顾问Vannevar Bush曾提出了一个称为MEMEX的“记忆机器”的设想。他认为人的记忆偏重关联，而非像图书馆那样采用严格的层次分类目录组织大脑中的信息。因此，他提出设计一种Mesh关联网络来存储电子化的百科全书。MEMEX记忆机器的设想启发了超文本技术Hypertext的实现，而超文本技术则直接促成了互联网的最大应用——World Wide Web的发明。Web是由英国人Tim Berners-Lee提出的，他因为Web技术的贡献获得了2016年的图灵奖。...

2022-08-17 21:55:06 10765

原创知识图谱从入门到应用——知识图谱的基础知识

人类通过认识世界来积累关于世界的知识，通过学习到的知识来解决碰到的问题。假如马云的秘书是一个人工智能，它在第一个语境中，应该把肯德基识别为一种食品，而在第二个语境中，应该把肯德基识别为一家公司，而且它还需要知道肯德基的母公司是百胜餐饮，蚂蚁金服投资了百胜餐饮，而马云是阿里巴巴的创始人，阿里巴巴与蚂蚁金服存在关联关系，才能正确地建立马云和肯德基的关系。在知识获取方面，专家层面的经验为现代知识的构建提供了重要的输入，此外，现在还有设备传感数据、自动采集的日志数据、多种模态的数据等大量的机器数据。........

2022-08-17 21:12:48 11234

原创系统学习Python——类（class）代码的编写基础与实例：类可以截获Python运算符

现在，让我们来看类和模块的第三个也是最后一个主要差别：运算符重载。简而言之，，可截获并响应用在内置类型上的运算：加法、切片、打印和点号运算等。这其实只是一种自动分发机制：表达式和其他内置运算被路由到了类内部的实现。在这点上类和模块也基本不同：模块可以实现函数调用，但却不能实现表达式的行为。虽然我们可以把所有类的行为实现为方法函数，运算符重载则让对象和Python的对象模型更紧密地结合起来。......

2022-08-11 13:07:27 11253

原创系统学习Python——类（class）代码的编写基础与实例：类通过继承进行定制

除了作为工厂来生成多个实例对象之外，类也可引入新组件（称为子类）来进行修改，而不对已有组件进行原处的修改。如我们所见，由类产生的实例对象会继承该类的属性。Python也可让类继承其他类，因而敬开了编写类层次结构的大门，通过在较低层次的地方可以覆盖已有的属性从而让行为特定化。实际上，越深入层次的下端，软件就会变得越特定化。类和模块在这一点上看也是有区别的，因为模块的属性存在于一个单一、扁平的命名空间中（该命名空间不接受定制化）。在Python中，实例从类中继承，而类继承于父类。...

2022-08-10 13:31:50 10783

原创系统学习Python——类（class）代码的编写基础与实例：类生成多个实例对象

从最底层来看，类基本上就是命名空间，这点很像Python的模块。但是类和模块不同的是，类还支持生成多个对象、命名空间继承以及运算符重载。

2022-08-09 13:30:42 12170

原创系统学习Python——类（class）与面向对象（Object-Oriented Programing, OOP）的基础知识

其实，一直以来我们Python所编写的代码都是基于对象的。我们在脚本中传递对象、在表达式中使用对象和调用对象的方法等。不过，要让代码真正称得上是面向对象的（Object-Oriented, OO），那么对象一般需要参与到所谓的继承层次中。类是在Python中实现一种新的对象，并支持继承的代码结构和部件。类是Python面向对象程序设计（Object-OrientedPrograming, OOP）的主要工具，因此在后续的文章中我们将会顺便讨论OOP的基础内容。........................

2022-08-09 12:56:34 10787

思维导图源文件《预训练模型总览》

该文件为《预训练模型总览》思维导图源文件，可自行编辑并输出相应图片或自行学习保存使用，详细内容可以参考：文章《自然语言处理从入门到应用——预训练模型总览》，文章链接：https://machinelearning.blog.csdn.net/article/details/131404053 从大量无标注数据中进行预训练使许多自然语言处理任务获得显著的性能提升。总的来看，预训练模型的优势包括： - 在庞大的无标注数据上进行预训练可以获取更通用的语言表示，并有利于下游任务 - 为模型提供了一个更好的初始化参数，在目标任务上具备更好的泛化性能、并加速收敛 - 是一种有效的正则化手段，避免在小数据集上过拟合，而一个随机初始化的深层模型容易对小数据集过拟合该思维导图源文件就是各种预训练模型的思维导图，其分别按照词嵌入（Word Embedding）方式分为静态词向量（Static Word Embedding）和动态词向量（Dynamic Word Embedding）方式分类、按照监督学习和自监督学习方式进行分类、按照拓展能力等分类方式展现，用户可以自行编辑修改。

2023-06-27

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人