知识图谱
文章平均质量分 65
DASEason
https://github.com/qq547276542
展开
-
NLP中基本概念入门
词向量(Word Embedding) 词向量主要用于将自然语言中的词符号数学化,这样才能作为机器学习问题的输入。 数学化表示词的方式很多,最简单的有独热编码,即“足球”=[0,0,1,0,0,0,0,…],“篮球”=[0,0,0,0,0,1,0,…],向量的长度为总词数。显然,独热编码有以下缺点:1.可能导致维数过大,对深度学习来说复杂度过高。2.两个词的相似程度无法表示。 词向量与独热编码原创 2017-10-18 16:29:44 · 6361 阅读 · 0 评论 -
知识图谱构建技术综述
知识图谱的定义与架构知识图谱的定义知识图谱是结构化的语义知识库,用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组。通过知识图谱,可以实现Web从网页链接向概念链接的转变。知识图谱的架构从逻辑上可以划分为2个层次:数据层和模式层。在知识图谱的数据层,知识以事实(fact)为单位存储在图数据库。图数据中有“实体-关系-实体”或者“实体-属性-属性值”两种三元组,原创 2017-10-29 17:31:44 · 20797 阅读 · 2 评论 -
解决fasttext内存不足无法读取模型的问题
fasttext是个好东西,是由facebook在2016年推出的一个训练词向量的模型。相比于之前Google的word2vec,fasttext可以解决out of vocabulary的问题。更赞的是,facebook提供了200多种语言的预训练模型和词向量。 然而,在安装完fasttext后,当我读取了3GB的中文模型时,却出了下面的问题:Traceback (most recent cal原创 2017-12-15 21:56:13 · 6125 阅读 · 1 评论