NLP
imagination_gogo
我不怕千万人阻挡,就怕自己投降。
展开
-
语言理解:图像检索的大规模视觉编码
编者:杨柳依依日期:2018年9月16日今天给大家介绍一篇来自2018年ACL会议上的论文,讲的是如何利用图像检索的特征表达词嵌入特征。1.背景知识在介绍论文之前,我们先简单了解下本文的思路和做法。作者引入了Picturebook,通过图像检索得到的物理世界的词汇的查找表。对于词库中的每一个词,作者在谷歌搜索引擎中检索得到前k张的图像,并将图像输入到卷积网络中提取词嵌入向量...原创 2018-09-18 21:14:37 · 534 阅读 · 0 评论 -
知识图谱赵军学习笔记(九)--知识推理
知识图谱中的推理任务知识推理是人工智能应用迈向更高级认知智能的重要技术。包括知识补全和知识问答。知识补全面向知识库或者知识图谱的事实补全如图谱中给出了出生地但没有国籍,即可以通过推理的方法把实体或关系预测出来。称为链接预测。它是利用已知知识预测未知的隐含知识,利于完善现有知识图谱。包含两个评测任务:三元组分类判断是否正确 比如首都(北京,中国)首都(成都,中国)是错的,二分...原创 2019-02-19 11:47:20 · 3365 阅读 · 1 评论 -
知识图谱赵军学习笔记(八)--知识存储和检索
知识存储和检索知识图谱是一种有向图结构,描述了现实世界中存在的实体、事件或者概念以及他们之间的关系。图中的节点表示实体、事件或者概念,图中的边表示相邻节点的关系。知识图谱的存储基于表结构的存储利用二维的数据表对知识图谱中的数据进行存储。根据不同的设计原则,可以具有不同的表结构,比如三元组表如jena等,优点是简单直接,易于理解,缺点是:整个知识图谱都存储在一张表中,导致单表...原创 2019-02-18 21:21:41 · 3028 阅读 · 0 评论 -
知识图谱赵军学习笔记(七)--事件抽取
事件抽取事件是发生在某个特定的时间点或时间段、某个特定的地域范围内,由一个或者多个角色参与的一个或者多个动作组成的事情或状态的改变。几个要素是事件发生的时间,地点,参与事件的角色以及与之相关的动作或者状态的改变。同一个类型的事件中不同粒度的时间、地点、角色代表了不同的事件实例。事件抽取的定义主要研究如何从描述事件信息的文本中抽取出的用户感兴趣的事件信息并以结构化的形式呈现出来。相关概...原创 2019-02-18 16:39:11 · 2120 阅读 · 0 评论 -
知识图谱赵军学习笔记(六)--关系抽取
关系抽取实体之间的关系是知识图谱中不可或缺的部分,不同的关系将独立的实体连接。关系抽取是文本内容理解的重要支撑技术,能够将文本分析从语言层面提升到内容层面,对于问答系统、智能客服、聊天机器人、语义搜索等应用都十分重要。任务概述任务定义定义为两个或多个实体之间的某种联系。任务分类关系抽取分为以下三种:面向结构化文本的关系抽取结构数据包括表格数据,XML文档以及数据库数据等,这类数...原创 2019-02-17 21:31:12 · 1478 阅读 · 0 评论 -
知识图谱赵军学习笔记(五)--实体消歧
实体消歧任务定义通过六元组来定义:M=N,E,D,O,K,&N是待消歧的实体名集合,如李娜,迈克尔乔丹等E是待消歧实体名的目标列表,包括了可能指向的实体,如李娜(跳水运动员)D是一个包含了待消歧实体名的文档集,如包含迈克尔的网页集合O=是D中的实体指称项集合。一个实体的指称项是在具体上下文中出现的待消歧实体名。K是命名实体消歧任务所使用的背景知识。关于目标实体的描述。&a...原创 2019-02-17 17:51:00 · 5518 阅读 · 0 评论 -
知识图谱赵军学习笔记(四)--实体识别和扩展
实体识别和扩展在文本中对实体的引用可以有三种形式:命名性指称名词性指称名词性指称例如:中国乒乓球男队主教练刘国梁出席了会议,他布置了备战世乒赛的具体安排。中国乒乓球男队主教练是名词性指称刘国梁是命名性指称他是代词性指称这里主要研究命名性实体实体识别任务概述识别出文本中实体的命名性指称项,标注其类别。三大类:实体类,时间类,数字类七小类:人名,地名,组织名,时间,日期...原创 2019-02-16 23:47:38 · 2140 阅读 · 0 评论 -
知识图谱赵军学习笔记(三)--知识体系构建和知识融合
知识体系和知识融合知识融合通过框架匹配和实例对齐,把分散的知识资源联合起来,可以极大的增加知识图谱的覆盖领域和共享程度。知识体系构建知识体系三个方面核心内容:对概念的分类概念属性的描述概念之间相互关系知识体系的基本形态:词汇概念分类关系非分类关系公理人工构建方法人工构建知识体系的过程可以分为6个阶段:确定领域及任务知识图谱作为人工智能应用的基础设施,其构建...原创 2019-02-16 15:39:04 · 3493 阅读 · 0 评论 -
知识图谱赵军学习笔记(二)--知识表示
经典知识表示理论逻辑从简单到复杂分为:命题逻辑:具有最简单的语法,定义了具有真假值的原子命题,通过与、或、非、蕴含、当且仅当等将多个原子命题组合成复合命题,而推理过程则根据逻辑连接词的真值表进行推导一阶谓词逻辑(一阶逻辑):在命题逻辑基础上引入了全称量词和存在量词,使得一阶逻辑可以量化实体和概念高阶逻辑:量化谓词或集合二阶量化集合三阶量化集合的集合谓词逻辑优点谓...原创 2019-02-15 15:48:05 · 1541 阅读 · 0 评论 -
知识图谱赵军学习笔记(一)--概论
什么是知识图谱知识的种类陈述性知识(描述性知识)描述客观事物的性状等静态信息分为事物,概念,命题3个层次事物是特定的事或物概念是对一类事物本质特性的反映命题是对事物之间关系的陈述概括性命题描述概念之间普遍关系非概括性命题描述特定事物之间的关系过程性知识(程序性知识)描述问题如何求解等动态信息规则描述事物的因果关系控制结构描述问题的求解步骤图谱将传统...原创 2019-02-15 00:02:58 · 3622 阅读 · 0 评论 -
知识图谱演示界面调研
演示系统调研图谱展示形式调研cdsn知识库网站前端实现技术知识工场实验室推出的知识图谱探索式交互系统curiosity展示地址图谱可视化特点:节点可移动,但是相关节点不会跟着移动浏览历史表实体关系表图谱放大效果介绍信息特点:通过放大缩小可以展示更多信息,每一个链接的都是一个实体,可以成为节点再次展开,鼠标停在实体上时,显示实体的介绍。爱图谱...原创 2018-10-27 20:08:05 · 3808 阅读 · 0 评论 -
文本上的算法读书笔记四--分布式系统
第三篇 应用篇如何计算的更快随着数据量的爆炸式增长,如何存储和计算海量数据就成了一个问题。解决的方法之一是使用分布式系统,可以更快更好的完成用户的请求。程序优化程序执行时,经过将目标文件中的代码和数据从磁盘拷贝到主存,从存储器拷贝到寄存器堆,再从寄存器中拷贝到显示器上。花费大量的时间把信息从一个地方拷贝到另一个地方。需要系统设计者考虑怎么设计存储器使拷贝操作尽可能快。存储器...原创 2018-10-10 19:57:59 · 128 阅读 · 0 评论 -
文本上的算法读书笔记二--我们生活在一个寻求最优的世界里
最优化模型是机器学习的内功,几乎每一个机器学习背后都是一个最优化模型。2.1 最优化问题科学抽象于生活,科学服务于生活。每个机器学习背后都是个最优化问题。希望付出最小的成本来获得最大的收益。一般的最优化形式表示如下:是目标函数,和分别是约束条件,没有约束条件的(只有,称为无约束优化,只有和称为等式约束优化,和、都有称为不等式约束优化)设计一个模型来代替真实模型(假设为你设计...原创 2018-10-17 21:02:30 · 173 阅读 · 0 评论 -
文本上的算法读书笔记一--基础知识
1.1 概率论概率描述一些事情发生的可能性。大数定理:当试验次数(样本)足够多的时候,事件出现的频率无限接近于该事件真实发生的概率。来表示随机变量的概率,那么就要满足如下两个特性:联合概率表示两个事件共同发生的概率,如果相互独立,则条件概率是指在已知事件x已发生的情况下,事件y发生的概率。且有。如果这两个事件相互独立,那么与相等。联合概率和条件概率分别对应两...原创 2018-10-15 21:24:08 · 282 阅读 · 0 评论 -
文本上的算法读书笔记七--理解语言有多难
理解语言有多难7.1 自然语言处理自然语言处理NLP是让计算机能处理语言,20世纪50年代,大家关心的是人类学习语言的认知研究上,计算机处理语言,必须先分析语句和获取语义,需要分析词的次序,句子的句法规则,就是乔姆斯基的有限状态自动机刻画语言的语法,建立了自然语言的有限状态模型,这时是基于规则的服好主意方法。人工智能兴起后,20世纪70年代开始,逐步关注基于统计的联结主义方法。并在90年代...原创 2018-10-15 14:27:02 · 660 阅读 · 0 评论 -
文本上的算法读书笔记六--搜索引擎
6 搜索引擎是什么玩意儿Google这家搜索引擎公司的巨大成功,才把文本处理技术推向了一个新的高度。6.1 搜索引擎原理假设Q为用户要查询的关键词;为所有网页集合中第i个网页;表示给定一个Q,第i个网页满足了用户需求的概率,那么搜索引擎干的就是根据用户的输入Query(也包括一些隐性的信息,比如地域等),在所有的网页集合中计算,并排序返回给用户。如果按照之前的相关性方法把query...原创 2018-10-14 17:09:41 · 2882 阅读 · 0 评论 -
文本上的算法读书笔记五--nlp的需要知道的术语
搜索引擎的基本的术语1.tf/df/idftf是词频,就是某个词的出现的次数,表示的是一个词的局部信息。df是文档频率,就是指某个词的文档频率,这个词在多少个文档中出现。idf是逆文档频率,它是词重要性的一个很好的衡量。计算如下:在大量语料库中统计的,所以一般表示一个词的全局信息。2.pagerankpagerank用来衡量网页重要性的一个指标。核心思想是投票原...原创 2018-10-11 20:20:26 · 1034 阅读 · 0 评论 -
小白nlp入门基础(一)--nlp简介
nlp学习笔记一编者:杨柳依依日期:2018年9月25日随同公司的培训,对nlp有了初步的理解,小白整理后的笔记如下:自然语言的发展语言随社会一同发展,出现一词多义:苹果(水果),苹果(乔布斯公司)多词一义:北京市,北京简略词、缩写词:安徽,徽新词:不明觉厉,十动然拒新义:水军、打酱油歧义问题:音字转换(jiqi(机器)翻译jiqi(激起)ren m...原创 2018-09-26 21:11:40 · 2182 阅读 · 0 评论 -
知识图谱赵军学习笔记(十)--知识问答与对话
知识问答与对话知识图谱最直接和最重要的任务是满足用户的精确信息需求,提供个性化知识服务。目前的问答只能事实型问题,不能很好地处理复杂问题。例如:为什么天是蓝色的。关注回答事实型问题的相关技术。自动问答概述九十年代中期,系统的主要特点:利用浅层自然语言处理技术分析问题,并利用信息检索等技术从大规模文本或网页红抽取答案。 由于用户需求的多样性和自然语言的复杂性,没有得到广泛应用。两大困难:...原创 2019-02-19 23:48:59 · 2992 阅读 · 0 评论